Python版数据挖掘实验4报告.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华 南 农 业 大 学 综 合 实 验 报 告 学生姓名:洪毓阳 学 号:201512010107 实验持续时间: 一、实验名称:用决策树预测获胜球队 实验目的: 用决策树预测获胜球队 实验内容: 用决策树预测获胜球队 3、实验环境(设备、软件、实验数据): 设备:笔记本电脑 软件:Python idle 实验数据:leagues_NBA_2013_standings_expanded-standings.csv, leagues_NBA_2014_games_games.csv 实验步骤: 加载库,读取数据并进行处理; import pandas as pd import os from sklearn.model_selection import train_test_split from sklearn.model_selection import cross_val_score import numpy as np from collections import defaultdict from sklearn.tree import DecisionTreeClassifier from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OneHotEncoder # 添加文件路径,路径最好不要出现中文 dataFolder = ’G:\Python36\leagues_NBA_2014_games_games.csv’; data_filename = os.path.join(dataFolder, basketball, leagues_NBA_2014_games_games.csv); with open(data_filename) as data_filename: #读取数据的同时,将第一二列合并为一列 dataset = pd.read_csv(data_filename, parse_dates=[[0,1]] #我们可以通过下面这个方法对数据进行查看 #dataset.iloc[:5] #对数据重新命名头部 dataset.columns = [“Date”, “Visitor Team”, “VisitorPts”, “Home Team”, “HomePts”, “OT?”, “Notes”] #对数据进行排序并重新建立索引。当然也可以不进行排序,这个影响并不大。 #sort()排序函数已经在pandas0.20以后被弃用,一旦使用将报错,只能使用sort_values()/sort_index() dataset.sort_values(by=[Date], ascending=True, inplace=True) dataset = dataset.reset_index(drop=True) 创建字典,储存比赛结果,抽取数据特征; #创建(默认)字典,用于存储球队上次比赛的结果。该语句作用为当字典内不存在查找的key时,返回括号内(factory_function)类型的默认值;int默认值0 won_last = defaultdict(bool) #新增一列HomeWin,该列判断对应的数据是否主场胜利。将是否主场胜利作为预测结果 dataset[“HomeWin”] = dataset[“VisitorPts”] dataset[“HomePts”] y_true = dataset[“HomeWin”].values #创建两个能帮助我们进行预测的特征,分别是这两支队伍上场比赛的胜负情况。赢得上场比赛,大致可以说明该球队水平较高。 dataset[HomeLastWin] = 0 dataset[VisitorLastWin] = 0 for index, row in dataset.iterrows(): home_team = row[Home Team] visitor_team = row[Visitor Team] row[HomeLastWin] = won_last[home_team] row[VisitorLastWin] = won_last[visitor_team] dataset.iloc[index] = row #用当前比赛(遍历到的那一行数据所表示的比赛)的结果更新两支球队上场比赛的获胜情况,以便下次再遍历到这两支球队时使用。 won_last[home_team] = row[HomeWin] won_last[visito

文档评论(0)

173****3847 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档