- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树的英剪枝理论
决策树的剪枝理论 ? (2013-11-19 16:39:21) HYPERLINK javascript:; 转载▼ 标签:? HYPERLINK /?c=blogq=%CA%FD%BE%DD%CD%DA%BE%F2by=tag \t _blank 数据挖掘 ? HYPERLINK /?c=blogq=%BE%F6%B2%DF%CA%F7by=tag \t _blank 决策树 ? HYPERLINK /?c=blogq=%BC%F4%D6%A6by=tag \t _blank 剪枝 ? HYPERLINK /?c=blogq=itby=tag \t _blank it分类:? HYPERLINK /s/articlelist_1313729644_7_1.html \t _blank 数据挖掘剪枝理论,决策树的剪枝在上一节中没有仔细讲,趁这个机会学习了剪枝的基础理论,这里会详细学习。 决策树为什么(WHY)要剪枝?原因是避免决策树过拟合(Overfitting)样本。前面的算法生成的决策树非常详细并且庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现完好,误差率极低且能够正确得对训练样本集中的样本进行分类。训练样本中的错误数据也会被决策树学习,成为决策树的部分,但是对于测试数据的表现就没有想象的那么好,或者极差,这就是所谓的过拟合(Overfitting)问题。Quinlan教授试验,在数据集中,过拟合的决策树的错误率比经过简化的决策树的错误率要高。 ? 现在问题就在于,如何(HOW)在原生的过拟合决策树的基础上,生成简化版的决策树?可以通过剪枝的方法来简化过拟合的决策树。剪枝可以分为两种:预剪枝(Pre-Pruning)和后剪枝(Post-Pruning),下面我们来详细学习下这两种方法: PrePrune:预剪枝,及早的停止树增长,方法可以参考见上面树停止增长的方法。 PostPrune:后剪枝,在已生成过拟合决策树上进行剪枝,可以得到简化版的剪枝决策树。 其实剪枝的准则是如何确定决策树的规模,可以参考的剪枝思路有以下几个: 1:使用训练集合(Training Set)和验证集合(Validation Set),来评估剪枝方法在修剪结点上的效用 2:使用所有的训练集合进行训练,但是用统计测试来估计修剪特定结点是否会改善训练集合外的数据的评估性能,如使用Chi-Square(Quinlan,1986)测试来进一步扩展结点是否能改善整个分类数据的性能,还是仅仅改善了当前训练集合数据上的性能。 3:使用明确的标准来衡量训练样例和决策树的复杂度,当编码长度最小时,停止树增长,如MDL(Minimum Description Length)准则。 ? 我们先看下使用思路一来解决问题的集中后剪枝方法: Reduced-Error Pruning(REP,错误率降低剪枝) 该剪枝方法考虑将书上的每个节点作为修剪的候选对象,决定是否修剪这个结点有如下步骤组成: 1:删除以此结点为根的子树 2:使其成为叶子结点 3:赋予该结点关联的训练数据的最常见分类 4:当修剪后的树对于验证集合的性能不会比原来的树差时,才真正删除该结点 因为训练集合的过拟合,使得验证集合数据能够对其进行修正,反复进行上面的操作,从底向上的处理结点,删除那些能够最大限度的提高验证集合的精度的结点,直到进一步修剪有害为止(有害是指修剪会减低验证集合的精度) REP是最简单的后剪枝方法之一,不过在数据量比较少的情况下,REP方法趋于过拟合而较少使用。这是因为训练数据集合中的特性在剪枝过程中被忽略,所以在验证数据集合比训练数据集合小的多时,要注意这个问题。 尽管REP有这个缺点,不过REP仍然作为一种基准来评价其它剪枝算法的性能。它对于两阶段决策树学习方法的优点和缺点提供了了一个很好的学习思路。由于验证集合没有参与决策树的创建,所以用REP剪枝后的决策树对于测试样例的偏差要好很多,能够解决一定程度的过拟合问题。 ? Pessimistic Error Pruning(PEP,悲观剪枝) 先计算规则在它应用的训练样例上的精度,然后假定此估计精度为二项式分布,并计算它的标准差。对于给定的置信区间,采用下界估计作为规则性能的度量。这样做的结果,是对于大的数据集合,该剪枝策略能够非常接近观察精度,随着数据集合的减小,离观察精度越来越远。该剪枝方法尽管不是统计有效的,但是在实践中有效。 PEP为了提高对测试集合的预测可靠性,PEP对误差估计增加了连续性校正(Continuity Correction)。PEP方法认为,如果:
您可能关注的文档
- 镜像“点话语”——电影修辞格研究-文艺学专业毕业论文.docx
- 九街高层施工组织设计入方案(中标方案).doc
- 九龙江特大桥11 墩施工塔机安生拆方案汇总.docx
- 九江长江公前路大桥b3合同段肋板式桥台施工方案.doc
- 九略-一汽丰田-员工满意度就调查项目建议书.doc
- 九年级第二学期期号初考数学答案.doc
- 九江县土地利用规划对耕地布局管控效果研究——基于耕地破碎化和敏空间吻合性视角.docx
- 九龙江流域营养盐输出通量、时空变化及其影对响因素的研究-海洋化学专业毕业论文.docx
- 九华物流园下区物流量预测及其分摊分析.docx
- 九年级发化学板书设计.doc
- 2025年智能电网柔性直流输电技术在我国西部地区应用前景.docx
- 7.2 弹力-人教版八年级物理下册.pptx
- 2025年智能电网柔性直流输电技术在智能变电站中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化存储中的应用.docx
- 2025年智能电网柔性直流输电技术在新能源并网中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化控制中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化预测中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化服务中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化运维中的应用.docx
- 2025年智能电网柔性直流输电技术智能化保护系统研究.docx
最近下载
- 八年级数学(上)期末试卷 北师大版.doc VIP
- 农业合作社农资集中采购管理流程.docx VIP
- 新解读《DZ_T 0282-2024水文地质调查规范(1_50 000)》必威体育精装版解读.docx VIP
- 《建筑结构选型》全套课件(共8章完整版).pptx
- 摩登家庭台词剧本第一季第一集中英双语左右对照.pdf VIP
- 招标文件编制培训课件.ppt VIP
- (外研版(三年级起点))小学英语四上 Module 4单元测试(附答案).pdf VIP
- 人教版数学三年级上册总复习.ppt VIP
- Agilent-GCMS培训(完整版330页)教程.ppt
- 2024年外科手术部位感染预防与控制试题.docx
有哪些信誉好的足球投注网站
文档评论(0)