R语言数据挖掘课件-R的决策树:数据预测.ppt

R语言数据挖掘课件-R的决策树:数据预测.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《R语言数据挖掘》《R语言数据挖掘》R的决策树:数据预测学习目标理论方面,理解决策树分类预测的基本原理,适用性和方法特点。了解组合预测的必要性、袋装策略、推进策略以及随机森林的核心思想原理实践方面,掌握R的决策树、组合预测建模的函数和应用以及结果解读,能够正确运用决策树和组合预测方法实现数据的分类预测决策树算法概述决策树是一种直观有效展示规则集的图形方式,也是实现分类预测的经典数据挖掘算法决策树较好地规避了传统统计中利用一般线性模型、广义线性模型、判别分析对数据分布的要求,能够在无分布限制的“宽松环境下”,找出数据中输入变量和输出变量取值间的逻辑对应关系或规则,并实现对新数据输出变量的预测决策树的目标建立分类预测模型建立回归预测模型什么是决策树什么是决策树根节点叶节点中间节点2叉树和多叉树决策树的特点决策树体现了对样本数据的不断分组过程决策树体现了输入变量和输出变量取值的逻辑关系决策树的几何意义决策树的几何意义可将样本集中的每一个观测看成是n维(n个输入变量)特征空间上的一个点,输出变量取不同类别的点以不同形状表示(如圆圈或三角形)从几何意义上理解,是决策树的每个分枝在一定规则下完成对n维特征空间的区域划分。决策树建立好后,n维特征空间被划分成若干个小的矩形区域。矩形区域的边界平行或垂直于坐标轴决策树的核心问题决策树的核心问题第一,决策树的生长,即利用训练样本集完成决策树的建立过程第二,决策树的剪枝,即利用测试样本集对所形成的决策树进行精简分类回归树的生长过程分类回归树的生长过程本质是对训练样本集的反复分组,涉及两个问题:如何从众多输入变量中选择当前最佳分组变量如何从分组变量的众多取值中找到一个最佳分割点最佳分组变量和最佳分割点应是使输出变量异质性下降最快的变量和分割点信息熵:是信息量的数学期望。先验熵和后验熵信息增益:加权的信息增益测度异质性下降的程度分类树的生长过程输出变量异质性及异质性变化的测度Gini系数:节点样本的输出变量均取同一类别值,输出变量取值的差异性最小,Gini系数为0。各类别取值概率相等时,输出变量取值的差异性最大回归树的生长过程输出变量异质性及异质性变化的测度方差异质性下降的测度指标为方差的减少量分类回归树的剪枝分类回归树采用预修剪和后修剪相结合的方式剪枝预修剪目标是控制决策树充分生长,可以事先指定一些控制参数,例如:决策树最大深度树中父节点和子节点所包含的最少样本量或比例树节点中输出变量的最小异质性减少量后修剪策略是在决策树生长到一定程度之后,根据一定规则,剪去决策树中的那些不具有一般代表性的叶节点或子树,是一个边修剪边检验的过程分类回归树采用的后修剪技术称为最小代价复杂度剪枝法(MinimalCostComplexityPruning,MCCP)最小代价复杂度的测度出发点:决策树修剪中复杂度和精度(或误差)之间的权衡是必要的,既要尽量使决策子树没有很高的复杂度,又要保证修剪后的决策子树,其预测误差不明显高于复杂的决策树决策树T的代价复杂度最小代价复杂度剪枝判断能否剪掉一个中间节点{t}下的子树Tt时,应计算中间节点{t}和其子树Tt的代价复杂度最小代价复杂度剪枝分类回归树后剪枝过程,两个阶段:第一个阶段:不断调整CP参数?并依据?剪掉子树,得到k个备选子树最终将得到若干个具有嵌套(包含)关系的子树序列(?依次增大,包含的叶节点数依次减少)第二个阶段:在k个备选子树中选出最优子树分类回归树的交叉验证剪枝小样本集下因测试样本集的样本量小,且训练样本集和测试样本集的划分具有随机性,会导致CP参数值的设定不恰当。为此,可采用N折交叉验证剪枝N折交叉验证首先,将数据集随机近似等分为不相交的N组,称为N折然后,令其中的N-1组为训练样本集,用于建立模型。剩余的一组为测试样本集,计算预测误差N折交叉验证一般应用第一,模型预测误差的估计,即模型评价第二,确定合理的模型,即模型选择分类回归树的交叉验证剪枝CP参数值的典型代表值?分类回归树的R函数和应用分类回归树的R函数rpart(输出变量~输入变量,data=数据框名,method=方法名,parms=list(split=异质性测度指标),control=参数对象名)printcp(决策树结果对象名)plotcp(决策树结果对象名)分类回归树的应用提炼不同消费行为顾客的主要特征组合预测:给出稳健的预测组合预测模型是提高模型预测精度和稳健性的有效途径首先,基于样本数据建立一组模型而非单一模型其次,预测时由这组模型同时提供各自的预测结果,通过类似“投票表决”的形式决定最终

您可能关注的文档

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档