Python机器学习实践与Kaggle实战.PDFVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Python机器学习实践与Kaggle实战.PDF

Python机器学习实践与Kaggle实战 Author:?Miao?Fan?(范淼),?Ph.D.?candidate?on?Computer?Science. Affiliation:?Tsinghua?University?/?New?York?University? Bio:?/mediawiki/images/b/bd/Miao_Fan_%282015_C.V.%29.pdf Email:?fanmiao.cslt.thu@ Google?Scholar:?/citations?user=aPlHReAAAAAJhl=en Special?Talk?in?NYU:?/mediawiki/images/5/59/Special_talks_NYU--M.F.-.pdf 声明: ???????下面这些内容,都是学习《Learning?scikit-learn:?Machine?Learning?in?Python》这本书的心得和一些拓展,写到哪算哪。Scikit-learn这个包我关注 了2年,发展迅速;特别是它提供商业使用许可,比较有前景。 ???????对于机器学习实践的“选手”,这是本入门的好书,国内目前没有中文译文版,我就先吃吃螃蟹。我个人认为,如果能够比较熟练掌握?Scikit-learn中的各种现有 成熟模型的使用以及超参数优化(其实对超参数优化在工程中更加重要),那么Kaggle多数的竞赛大家基本可以进入Top25%。 ???????这份长篇笔记中的代码链接目前都在本地,不就我会上传到GITHUB上。 ???????平心而论,只有使用这些模型的经验丰富了,才能在实战中发挥作用,特别是对超参数和模型本身局限性的理解,恐怕不是书本所能教会的。 ???????另外,更是有一些可以尝试的,并且曾经在Kaggle竞赛中多次获奖的模型包,比如?Xgboost,?gensim等。Tensorflow究竟是否能够取得Kaggle竞赛的奖金,我 还需要时间尝试。 ???????同时,我个人近期也参与了《Deep?Learning》这本优质新书多个章节贡献和校对,与三位作者平时的交流也深受启发。如果有兴趣的同学可以邮件本人,并一起 参与中文笔记的撰文。 ?????????????转载的朋友请注明来源,非常感谢。? 平台选取:我个人推荐这个综合平台Anaconda进行练习https://www.continuum.io/downloads ,同时新加入的其他包也可以在这个平台上拓展,几乎常用的操作系统都可以安装,一次性解决复杂的配置问题。 回国之后,对于我这个从来没摸过苹果电脑和系统的菜鸟,再添置一个IMAC?27犒劳一下自己:)?(题外话)。 因为后面的代码都是在Ipython环境下的,因此有一些地方没有print这个函数帮助输出,请读者留意。In[*]/Out[*]这种标记也 是Ipython特有的。 这份笔记围绕Python下的机器学习实践一共探讨四个方面的内容:监督学习、无监督学习、特征和 模型的选取?和?几个流行的强力模型包的使用。 我特别喜欢用几句话对某些东西做个总结,对于Kaggle的任务,我个人觉得大体需要这么几个固定的机器学习流程(不包括决定性的 分析),如果按照这个流程,采用scikit-learn??pandas包的话,普遍都会进Top25%: 1)?pandas?读?csv或者tsv?(Kaggle上的数据基本都比较整洁) 2)?特征少的话,补全数据,feature_extraction?(DictVec,?tfidfVec等等,根据数据类型而异,文本,图像,音频,这些处 理方式都不同),?feature_selection,?grid_searching?the?best?hyperparameters(model_selection),?ensemble learning?(或者综合好多学习器的结果),?predict?或者?proba_predict?(取决于任务的提交要求,是直接分类结果,还是 分类概率,这个区别很大)。 3)?特征多的话,补全数据,feature_extraction?(DictVec,?tfidfVec等等,根据数据类型而异,文本,图像,音频,这些处 理方式都不同),?数据降维度(PCA,RBM等等),feature_selection?(如果降维度之后还有必要),?ensemble?learning (或者综合好多学习器的结果),?predict?或者?proba_predict?(取决于任务的提交要求,是直接分类结果,还是分类概率, 这个区别很大)。 1.

文档评论(0)

thl1006 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档