Python机器学习实践与Kaggle实战.PDFVIP

下载本文档

3604
0
约3.02万字
约 14页
2017-04-30 发布于天津
举报
版权申诉

Python机器学习实践与Kaggle实战.PDF

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Python机器学习实践与Kaggle实战.PDF

Python机器学习实践与Kaggle实战 Author:?Miao?Fan?(范淼),?Ph.D.?candidate?on?Computer?Science. Affiliation:?Tsinghua?University?/?New?York?University? Bio:?/mediawiki/images/b/bd/Miao_Fan_%282015_C.V.%29.pdf Email:?fanmiao.cslt.thu@ Google?Scholar:?/citations?user=aPlHReAAAAAJhl=en Special?Talk?in?NYU:?/mediawiki/images/5/59/Special_talks_NYU--M.F.-.pdf 声明： ???????下面这些内容，都是学习《Learning?scikit-learn:?Machine?Learning?in?Python》这本书的心得和一些拓展，写到哪算哪。Scikit-learn这个包我关注了2年，发展迅速；特别是它提供商业使用许可，比较有前景。 ???????对于机器学习实践的“选手”，这是本入门的好书，国内目前没有中文译文版，我就先吃吃螃蟹。我个人认为，如果能够比较熟练掌握?Scikit-learn中的各种现有成熟模型的使用以及超参数优化（其实对超参数优化在工程中更加重要），那么Kaggle多数的竞赛大家基本可以进入Top25%。 ???????这份长篇笔记中的代码链接目前都在本地，不就我会上传到GITHUB上。 ???????平心而论，只有使用这些模型的经验丰富了，才能在实战中发挥作用，特别是对超参数和模型本身局限性的理解，恐怕不是书本所能教会的。 ???????另外，更是有一些可以尝试的，并且曾经在Kaggle竞赛中多次获奖的模型包，比如?Xgboost,?gensim等。Tensorflow究竟是否能够取得Kaggle竞赛的奖金，我还需要时间尝试。 ???????同时，我个人近期也参与了《Deep?Learning》这本优质新书多个章节贡献和校对，与三位作者平时的交流也深受启发。如果有兴趣的同学可以邮件本人，并一起参与中文笔记的撰文。 ?????????????转载的朋友请注明来源，非常感谢。? 平台选取：我个人推荐这个综合平台Anaconda进行练习https://www.continuum.io/downloads ，同时新加入的其他包也可以在这个平台上拓展，几乎常用的操作系统都可以安装，一次性解决复杂的配置问题。回国之后，对于我这个从来没摸过苹果电脑和系统的菜鸟，再添置一个IMAC?27犒劳一下自己:)?（题外话）。因为后面的代码都是在Ipython环境下的，因此有一些地方没有print这个函数帮助输出，请读者留意。In[*]/Out[*]这种标记也是Ipython特有的。这份笔记围绕Python下的机器学习实践一共探讨四个方面的内容：监督学习、无监督学习、特征和模型的选取?和?几个流行的强力模型包的使用。我特别喜欢用几句话对某些东西做个总结，对于Kaggle的任务，我个人觉得大体需要这么几个固定的机器学习流程（不包括决定性的分析），如果按照这个流程，采用scikit-learn??pandas包的话，普遍都会进Top25%: 1)?pandas?读?csv或者tsv?(Kaggle上的数据基本都比较整洁) 2)?特征少的话，补全数据，feature_extraction?(DictVec,?tfidfVec等等，根据数据类型而异，文本，图像，音频，这些处理方式都不同),?feature_selection,?grid_searching?the?best?hyperparameters(model_selection),?ensemble learning?（或者综合好多学习器的结果）,?predict?或者?proba_predict?（取决于任务的提交要求，是直接分类结果，还是分类概率，这个区别很大）。 3)?特征多的话，补全数据，feature_extraction?(DictVec,?tfidfVec等等，根据数据类型而异，文本，图像，音频，这些处理方式都不同),?数据降维度（PCA，RBM等等），feature_selection?(如果降维度之后还有必要),?ensemble?learning （或者综合好多学习器的结果）,?predict?或者?proba_predict?（取决于任务的提交要求，是直接分类结果，还是分类概率，这个区别很大）。 1.