数据挖掘快速入门教程详解.pptx

下载文档 降价啦

25
0
约 15页
2017-05-23 发布于湖北
举报
版权申诉
保障服务

数据挖掘快速入门教程详解.pptx

1、本文档共15页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘快速入门教程详解

王屯屯学习情况汇报;相关领域; 韩嘉炜：数据挖掘概念与技术认识数据，数据预处理，分类，聚类（初高级），离群点检测，数据挖掘的研究问题和未来发展。其他还有数据立方体技术等。刘冰：网络数据挖掘关联规则挖掘，监督学习，半监督学习，无监督学习。其他还有网络信息挖掘，网络爬虫等林轩田：机器学习三大监督学习 Martin：神经网络三大神经网络结构，性能曲面，性能优化。其他的还有有监督的Hebb学习等经典的学习方法 ;数据挖掘过程;数据的表现形式;挖掘功能;用到的技术;如何构建模型;如何将数据分类;如何将数据聚类;看论文与动手结合; import pandas import numpy as np from sklearn.linear_model import LinearRegression from sklearn.linear_model import LogisticRegression from sklearn.cross_validation import KFold from sklearn import cross_validation titanic = pandas.read_csv(../input/train.csv) titanic[Age] = titanic[Age].fillna(titanic[Age].median()) titanic.loc[titanic[Sex] == male, Sex] = 0 titanic.loc[titanic[Sex] == female, Sex] = 1 titanic[Embarked] = titanic[Embarked].fillna(S) titanic.loc[titanic[Embarked] == S, Embarked] = 0 titanic.loc[titanic[Embarked] == C, Embarked] = 1 titanic.loc[titanic[Embarked] == Q, Embarked] = 2; predictors = [Pclass, Sex, Age, SibSp, Parch, Fare, Embarked] alg = LinearRegression() kf = KFold(titanic.shape[0], n_folds = 3, random_state = 1) predictions = [] for train, test in kf: train_predictors = (titanic[predictors].iloc[train,:]) train_target = titanic[Survived].iloc[train] alg.fit(train_predictors, train_target) test_predictions = alg.predict(titanic[predictors].iloc[test,:]) predictions.append(test_predictions) predictions = np.concatenate(predictions,axis = 0) predictions[predictions .5] = 1 predictions[predictions = .5] = 0 accuracy = 1 - sum(abs(predictions - titanic[Survived])) / len(predictions) print (Accuracy of Linear Regression on the training set is + str(accuracy)) alg = LogisticRegression(random_state = 1) scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic[Survived], cv = 3) print (Accuracy of Logistic Regression using cross-validation on the training set is + str(scores.mean())) ; # Read the test set csv file. titanic_test = pandas.read_csv(../input/test.csv) # ====================Preprocessing the data===================== titanic_test[