- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘快速入门教程详解
王屯屯学习情况汇报;相关领域;
韩嘉炜:数据挖掘概念与技术
认识数据,数据预处理,分类,聚类(初高级),离群点检测,数据挖掘的研究问题和未来发展。其他还有数据立方体技术等。
刘 冰:网络数据挖掘
关联规则挖掘,监督学习,半监督学习,无监督学习。其他还有网络信息挖掘,网络爬虫等
林轩田:机器学习
三大监督学习
Martin: 神经网络
三大神经网络结构,性能曲面,性能优化。其他的还有有监督的Hebb学习等经典的学习方法
;数据挖掘过程;数据的表现形式;挖掘功能;用到的技术;如何构建模型;如何将数据分类;如何将数据聚类;看论文与动手结合;
import pandas
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import KFold
from sklearn import cross_validation
titanic = pandas.read_csv(../input/train.csv)
titanic[Age] = titanic[Age].fillna(titanic[Age].median())
titanic.loc[titanic[Sex] == male, Sex] = 0
titanic.loc[titanic[Sex] == female, Sex] = 1
titanic[Embarked] = titanic[Embarked].fillna(S)
titanic.loc[titanic[Embarked] == S, Embarked] = 0
titanic.loc[titanic[Embarked] == C, Embarked] = 1
titanic.loc[titanic[Embarked] == Q, Embarked] = 2;
predictors = [Pclass, Sex, Age, SibSp, Parch, Fare, Embarked]
alg = LinearRegression()
kf = KFold(titanic.shape[0], n_folds = 3, random_state = 1)
predictions = []
for train, test in kf:
train_predictors = (titanic[predictors].iloc[train,:])
train_target = titanic[Survived].iloc[train]
alg.fit(train_predictors, train_target)
test_predictions = alg.predict(titanic[predictors].iloc[test,:])
predictions.append(test_predictions)
predictions = np.concatenate(predictions,axis = 0)
predictions[predictions .5] = 1
predictions[predictions = .5] = 0
accuracy = 1 - sum(abs(predictions - titanic[Survived])) / len(predictions)
print (Accuracy of Linear Regression on the training set is + str(accuracy))
alg = LogisticRegression(random_state = 1)
scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic[Survived], cv = 3)
print (Accuracy of Logistic Regression using cross-validation on the training set is + str(scores.mean()))
;
# Read the test set csv file.
titanic_test = pandas.read_csv(../input/test.csv)
# ====================Preprocessing the data=====================
titanic_test[
您可能关注的文档
- 教育统计与测量详解.ppt
- 教育教学能力实训训练项目及要求详解.doc
- Electrolux系列-组合式炉具安装和调试课件.ppt
- EMC实验室规划与设计(正式版)课件.docx
- EMEA基因毒性杂质限度指南课件.doc
- EMC设计之PCB设计课件.ppt
- 教育技术服务平台安装说明--教师版详解.doc
- 教科版科学六年级上册《原来是相互关联的》PPt详解.ppt
- EMS03-环境因素识别课件.ppt
- 散文诗两首详解.ppt
- 护理学相关知识复习测试卷共三套.doc
- 护理学相关知识复习试题含答案(3套).doc
- 2025届高考语文复习:补写句子 课件.pptx
- 气压带和风带对气候的影响(第1课时)(教学设计).docx
- 气压带和风带对气候影响教学设计2024-2025学年高中地理人教版(2019)选择性必修1.docx
- 《故都的秋》课件 2024-2025学年统编版高中语文必修上册.pptx
- 《屈原列传》课件 2024-2025学年统编版高中语文选择性必修中册.pptx
- 《巫溪家乡文化》课件-2024-2025学年高一语文同步备课课件(统编版必修上册).pptx
- 《苏武传》课件 2023-2024学年统编版高中语文选择性必修中册.pptx
- 郑州中控ZKTime8.3 WEB考勤软件培训文档.pptx
文档评论(0)