数据挖掘快速入门教程详解.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘快速入门教程详解

王屯屯学习情况汇报 ;相关领域; 韩嘉炜:数据挖掘概念与技术 认识数据,数据预处理,分类,聚类(初高级),离群点检测,数据挖掘的研究问题和未来发展。其他还有数据立方体技术等。 刘 冰:网络数据挖掘 关联规则挖掘,监督学习,半监督学习,无监督学习。其他还有网络信息挖掘,网络爬虫等 林轩田:机器学习 三大监督学习 Martin: 神经网络 三大神经网络结构,性能曲面,性能优化。其他的还有有监督的Hebb学习等经典的学习方法 ;数据挖掘过程;数据的表现形式;挖掘功能;用到的技术;如何构建模型;如何将数据分类;如何将数据聚类;看论文与动手结合; import pandas import numpy as np from sklearn.linear_model import LinearRegression from sklearn.linear_model import LogisticRegression from sklearn.cross_validation import KFold from sklearn import cross_validation titanic = pandas.read_csv(../input/train.csv) titanic[Age] = titanic[Age].fillna(titanic[Age].median()) titanic.loc[titanic[Sex] == male, Sex] = 0 titanic.loc[titanic[Sex] == female, Sex] = 1 titanic[Embarked] = titanic[Embarked].fillna(S) titanic.loc[titanic[Embarked] == S, Embarked] = 0 titanic.loc[titanic[Embarked] == C, Embarked] = 1 titanic.loc[titanic[Embarked] == Q, Embarked] = 2; predictors = [Pclass, Sex, Age, SibSp, Parch, Fare, Embarked] alg = LinearRegression() kf = KFold(titanic.shape[0], n_folds = 3, random_state = 1) predictions = [] for train, test in kf: train_predictors = (titanic[predictors].iloc[train,:]) train_target = titanic[Survived].iloc[train] alg.fit(train_predictors, train_target) test_predictions = alg.predict(titanic[predictors].iloc[test,:]) predictions.append(test_predictions) predictions = np.concatenate(predictions,axis = 0) predictions[predictions .5] = 1 predictions[predictions = .5] = 0 accuracy = 1 - sum(abs(predictions - titanic[Survived])) / len(predictions) print (Accuracy of Linear Regression on the training set is + str(accuracy)) alg = LogisticRegression(random_state = 1) scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic[Survived], cv = 3) print (Accuracy of Logistic Regression using cross-validation on the training set is + str(scores.mean())) ; # Read the test set csv file. titanic_test = pandas.read_csv(../input/test.csv) # ====================Preprocessing the data===================== titanic_test[

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档