- 1、本文档共17页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * 决策树算法 1 决策树运作过程 目录 决策树简介 2 小结 3 决策树方法在分类、预测、规则提取等领域有着广泛应用。在20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinilan提出了ID3算法以后,决策树在机器学习、数据挖掘邻域得到极大的发展。Quinilan后来又提出了C4.5,成为新的监督学习算法的性能比较基准。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练元组中学习决策树。 发展历史 常用的决策树算法如下表。 常用决策树算法 决策树算法 算法描述 ID3算法 其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性。 C4.5算法 C4.5决策树生成算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性。C4.5算法可以克服ID3算法存在的不足:ID3算法只适用于离散的描述属性,而C4.5算法既能够处理离散的描述属性,也可以处理连续的描述属性。 CART算法 CART决策树是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树。 1 决策树运作过程 目录 决策树简介 2 小结 3 以决策树算法中经典的ID3算法为例,基本流程如下: 决定测试属性:选择当前样本集中具有最大信息增益值的属性作为测试属性。 划分样本集:依据测试属性的取值进行,测试属性有多少不同取值就将样本集划分为多少子样本集。 生成叶子节点:在决策树上相应于该样本集的节点长出新的叶子节点。 打球数据集: 决策树: 基本流程 日期 天气 温度(华氏度) 湿度 起风 打球? 1 Sunny 85 85 F No 2 Sunny 80 90 T No 3 Overcast 83 78 F Yes 4 Rainy 70 96 F Yes 5 Rainy 68 80 F Yes 6 Rainy 65 70 T No 7 Overcast 64 65 T Yes 8 Sunny 72 95 F No 9 Sunny 69 70 F Yes 10 Rainy 75 80 F Yes 11 Sunny 75 70 T Yes 12 Overcast 72 90 T Yes 13 Overcast 81 75 F Yes 14 Rainy 71 80 T No 天气 Yes 湿度 风 Yes No No Yes 晴 阴 雨 75 =75 是 否 决策树算法在选择属性先后顺序时的标准如下: 在拆分过程中,当叶节点只拥有单一类别时,将不必继续拆分。 目标是寻找较小的树,希望递归过程尽早停止。 当前最好的拆分属性产生的拆分中目标类的分布应该尽可能地单一(单纯),多数类占优。 如果能测量每一个节点的纯度,就可以选择能产生最纯子节点的那个属性进行拆分。 通常按照纯度的增加来选择拆分属性。 属性选择 纯度的基本概念如下: 当样本中没有两项属于同一类:0 当样本中所有项都属于同一类:1 于是,最佳拆分可以转化为选择拆分属性使纯度度量最大化的优化问题。 纯度 用于评价拆分分类目标变量的纯度度量如下: 基尼(Gini,总体发散性) CART决策树 熵(entropy,信息量) 信息增益(Gain) ID3决策树 信息增益率 C4.5和C5.0决策树 纯度 信息论中的熵是信息的度量单位,是一种 对属性“不确定性的度量”。属性的不确定性越大,把它搞清楚所需要的信息量也就越大,熵也就越大。 如果一个数据集D有N个类别,则该数据集的熵为: 打球数据集的熵: 熵 信息增益(gain)表示对纯度提升的程度。 若离散属性a有V个取值,则其信息增益为: 信息增益 天气属性的信息增益 晴:打球记录2条,不打球记录为3条 阴:打球记录4条,不打球记录0条 雨:打球记录3条,不打球记录2条 信息增益 计算得到天气属性的信息增益: 同理可以得到起风属性的信息增益: 0.048 ID3算法根据信息理论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量:信息增益值越大,不确定性越小。因此,ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性。该属性使得对结果划分中的样本分类所需的信息最小,并反映划分的最小随机性。 信息增益 决策树算法的优缺点如下: 优点:
您可能关注的文档
- 特种水产经济动物养殖技术 特种水产经济动物养殖技术 澳洲龙虾病害防治.pptx
- 工程地质调查 结构面图示 结构面的图示.ppt
- 检验仪器分析技术、教学服务模块 课件、PCR扩增仪的工作原理和分类 PCR技术原理.pptx
- 特种水产经济动物养殖技术 特种水产经济动物养殖技术 澳洲龙虾的中间养成.pptx
- 建设工程项目管理 建设工程项目管理、模块11 国外建设工程项目管理相关情况介绍 国外建设工程项目管理相关情况介绍.ppt
- 工程地质学基础 渗透变形基本类型 渗透变形基本类型 27.pptx
- 建筑安全生产技术 支护技术 1.4.3 浅基坑土壁支撑形式.pptx
- 建筑材料 3.2.4 硅酸盐水泥的水化与凝结硬化 硅硅酸盐水泥的水化与凝结硬化.pptx
- 体育客户服务管理 任务二 客户是上帝吗——客户是什么 02 客户是什么.pptx
- 建筑材料 建筑钢材的验收与储运 4.6建筑钢材的验收与储运.ppt
- 胶体与界面化学 气液和固液界面膜 胶体与界面化学课件-6.2气液和固液界面膜.ppt
- 工程识图与CAD 基本体 锥类基本体.pptx
- 焦化生产技术 知识点3.焦油的回收 项目三焦化知识点3:(3)焦油回收系统.pptx
- 焦化生产技术 知识点3.焦油的回收 项目三焦化知识点3:(4)鼓风机操作及常见事故.pptx
- 铁路客运组织 线路中断的运输处理 线路中断的处理.ppt
- 教师口语 上声音变训练 《教师口语》——1.3.2 上声的变调.ppt
- 工程识图与CAD 基础构造识读 基础构造识读.pptx
- 教师口语 作废2 说服语定义、作用及使用技巧.ppt
- 教师资格证考证 2.1.4教育与社会的关系 2.1.4教育与社会的发展.pptx
- 教师资格证考证 2.1.7素质教育及其实施 2.1.7素质教育及其实施.pptx
文档评论(0)