交通数据分析交通数据分析 26 决策树算法.pptVIP

下载本文档

103
0
约2.38千字
约 17页
2020-08-26 发布于北京
举报
版权申诉

交通数据分析交通数据分析 26 决策树算法.ppt

1、本文档共17页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * 决策树算法 1 决策树运作过程目录决策树简介 2 小结 3 决策树方法在分类、预测、规则提取等领域有着广泛应用。在20世纪70年代后期和80年代初期，机器学习研究者J.Ross Quinilan提出了ID3算法以后，决策树在机器学习、数据挖掘邻域得到极大的发展。Quinilan后来又提出了C4.5，成为新的监督学习算法的性能比较基准。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出，但都是采用类似的方法从训练元组中学习决策树。发展历史常用的决策树算法如下表。常用决策树算法决策树算法算法描述 ID3算法其核心是在决策树的各级节点上，使用信息增益方法作为属性的选择标准，来帮助确定生成每个节点时所应采用的合适属性。 C4.5算法 C4.5决策树生成算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性。C4.5算法可以克服ID3算法存在的不足：ID3算法只适用于离散的描述属性，而C4.5算法既能够处理离散的描述属性，也可以处理连续的描述属性。 CART算法 CART决策树是一种十分有效的非参数分类和回归方法，通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时，该树为回归树；当终结点是分类变量，该树为分类树。 1 决策树运作过程目录决策树简介 2 小结 3 以决策树算法中经典的ID3算法为例，基本流程如下：决定测试属性：选择当前样本集中具有最大信息增益值的属性作为测试属性。划分样本集：依据测试属性的取值进行，测试属性有多少不同取值就将样本集划分为多少子样本集。生成叶子节点：在决策树上相应于该样本集的节点长出新的叶子节点。打球数据集：决策树：基本流程日期天气温度(华氏度) 湿度起风打球? 1 Sunny 85 85 F No 2 Sunny 80 90 T No 3 Overcast 83 78 F Yes 4 Rainy 70 96 F Yes 5 Rainy 68 80 F Yes 6 Rainy 65 70 T No 7 Overcast 64 65 T Yes 8 Sunny 72 95 F No 9 Sunny 69 70 F Yes 10 Rainy 75 80 F Yes 11 Sunny 75 70 T Yes 12 Overcast 72 90 T Yes 13 Overcast 81 75 F Yes 14 Rainy 71 80 T No 天气 Yes 湿度风 Yes No No Yes 晴阴雨 75 =75 是否决策树算法在选择属性先后顺序时的标准如下：在拆分过程中，当叶节点只拥有单一类别时，将不必继续拆分。目标是寻找较小的树，希望递归过程尽早停止。当前最好的拆分属性产生的拆分中目标类的分布应该尽可能地单一（单纯），多数类占优。如果能测量每一个节点的纯度，就可以选择能产生最纯子节点的那个属性进行拆分。通常按照纯度的增加来选择拆分属性。属性选择纯度的基本概念如下：当样本中没有两项属于同一类：0 当样本中所有项都属于同一类：1 于是，最佳拆分可以转化为选择拆分属性使纯度度量最大化的优化问题。纯度用于评价拆分分类目标变量的纯度度量如下：基尼(Gini，总体发散性) CART决策树熵(entropy，信息量) 信息增益(Gain) ID3决策树信息增益率 C4.5和C5.0决策树纯度信息论中的熵是信息的度量单位，是一种对属性“不确定性的度量”。属性的不确定性越大，把它搞清楚所需要的信息量也就越大，熵也就越大。如果一个数据集D有N个类别，则该数据集的熵为：打球数据集的熵：熵信息增益(gain)表示对纯度提升的程度。若离散属性a有V个取值，则其信息增益为：信息增益天气属性的信息增益晴：打球记录2条，不打球记录为3条阴：打球记录4条，不打球记录0条雨：打球记录3条，不打球记录2条信息增益计算得到天气属性的信息增益：同理可以得到起风属性的信息增益： 0.048 ID3算法根据信息理论，采用划分后样本集的不确定性作为衡量划分好坏的标准，用信息增益值度量：信息增益值越大，不确定性越小。因此，ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性。该属性使得对结果划分中的样本分类所需的信息最小，并反映划分的最小随机性。信息增益决策树算法的优缺点如下：优点：

您可能关注的文档

文档评论（0）

WanDocx + 关注: 实名认证

文档贡献者

大部分文档都有全套资料，如需打包优惠下载，请留言联系。所有资料均来源于互联网公开下载资源，如有侵权，请联系管理员及时删除。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

交通数据分析交通数据分析 26 决策树算法.pptVIP