- 1、本文档共62页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 节 分类方法(new) 数据挖掘课件.ppt
合并具有连续值的属性,对于连续属性值,C4.5其处理过程如下: 根据属性的值,对数据集排序; 用不同的阈值将数据集动态的进行划分; 当输出改变时确定一个阈值; 取两个实际值中的中点作为一个阈值; 取两个划分,所有样本都在这两个划分中; 得到所有可能的阈值、增益及增益比; 在每一个属性会变为取两个取值,即小于阈值或大于等于阈值。 简单地说,针对属性有连续数值的情况,则在训练集中可以按升序方式排列。如果属性A共有n种取值,则对每个取值vj(j =1,2,… ,n),将所有记录进行划分:一部分小于vj;一部分则大于或等于vj 。针对每个vj计算划分对应的增益比率,选择增益最大的划分对属性A进行离散化 。 处理含有未知属性值的训练样本 C4.5处理的样本中可以含有未知属性值,其处理方法是用最常用的值替代或者是将最常用的值分在同一类中。具体采用概率的方法,依据属性已知的值,对属性和每一个值赋予一个概率,取得这些概率,取得这些概率依赖于该属性已知的值。 规则的产生 一旦树被建立,就可以把树转换成if-then规则。规则存储于一个二维数组中,每一行代表树中的一个规则,即从根到叶之间的一个路径。表中的每列存放着树中的结点。 C4.5算法例子 样本数据 Outlook Temperature Humidity Wind PlayTennis Sunny Hot 85 false No Sunny Hot 90 true No Overcast Hot 78 false Yes Rain Mild 96 false Yes Rain Cool 80 false Yes Rain Cool 70 true No Overcast Cool 65 true Yes Sunny Mild 95 false No Sunny Cool 70 false Yes Rain Mild 80 false Yes Sunny Mild 70 true Yes Overcast Mild 90 true Yes Overcast Hot 75 false Yes Rain Mild 80 true No Outlook(离散属性) Temperature(离散属性) Humidity(连续属性) Wind(离散属性) PlayTennis(类别属性) (1)首先对Humidity进行属性离散化,针对上面的训练集合,通过检测每个划分而确定最好的划分在75处,则这个属性的范围就变为{(=75 ,75)}。 (2)计算目标属性Humidity分类的期望信息: 接下来计算属性Outlook的SplitI值: 对于Outlook=Sunny,有 对于Outlook=Sunny,有 对于Outlook=Sunny,有 对于决策属性PlayTennis来说,计算Outlook属性每个分布的期望信息 选取最大的GainRatio,根据Outlook的取值,可以得到三个分支。再扩展各分枝节点,得到最终的决策树。 因此,可得到Outlook属性的熵: 对应的信息增益为: 最后得到信息增益比例为: 0.0483 Humidity) GainRatio( = 0.0248 e) Temperatur GainRatio( = ; 049 . 0 ) ( = ; windy GainRatio 同理,可计算出 Temperature Humidity Wind PlayTennis Hot >75 false No Hot >75 true No Mild >75 false No Cool ≤75 false Yes Mild ≤75 true Yes Temperature Humidity Wind PlayTennis Mild >75 false Yes Cool >75 false Yes Cool ≤ 75 true No Mild > 75 false Yes Mild > 75 true No Temperature Humidity Wind PlayTennis Hot >75 false Yes Cool ≤ 75 true Yes Mild >75 true Yes Hot ≤75 false Yes =Rain Outlook? =Sunny =Overcast T1 T3 T2 对于第一棵子树, 1 Humidity) GainRatio( = 0.244 e) Temperatur GainRatio( = ; 0206 . 0 ) ( = ; windy GainRatio ,选择Humidity作为决策属性,得到两个叶结点。 对于第二棵子树,所有样本都
您可能关注的文档
- 第4章 节 Excel轻松领入门 中文版Office 2003.pptx
- 第4章 节 SQL的应用VFP第3版.pptx
- 第4章 节 _Android生命周期.ppt
- 第4章 节 __现代物流学__课件__叶怀珍主编.ppt
- 第4章 节 _定位系统v1.1 物联网 .ppt
- 第4章 节 _目标规划 运筹学ppt.ppt
- 第4章 节 PWM控制及其变异 电力电子与电机系统分析基础 .ppt
- 第4章 节 三相交流电路及安全用电常识 电工学(上册)课件.ppt
- 第4章 节 交流绕组 《电机学(少学时)》课件.pptx
- 第4章 节 土地使用的获取和开发前期准备 房地产开发与经营(第2版) 电子教案.ppt
文档评论(0)