- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
子树提升第31页,共47页,星期日,2025年,2月5日4.4模型评估评估是使数据挖掘取得实际进展的关键。在数据挖掘过程的最后阶段,使用一种或多种归纳学习技术得到模型之后,仍然还存在一些重要问题:1)如何验证和确认模型?2)对于一个具体问题,使用哪种方法?3)如何将一种方法与另一种比较?第32页,共47页,星期日,2025年,2月5日确认(validation)和验证(verification)模型确认:用合格检验证明模型在其应用范围内,按照用户确定的目标,以满意的正确率进行工作。换言之,在模型确认中,我们证实数据转换为模型,并且它在表示被观测系统方面具有足够精度。处理构造正确的模型——对应于系统的模型。模型验证:证实模型是由数据转换来的、具有足够精度的新表示。处理正确地构造模型——对应于数据的模型。数据挖掘结果通过检验过程加以确认和验证。某些检验用来评估模型的行为的正确性(即确认),而另一些检验旨在评估数据转换成模型的正确性(即验证)。第33页,共47页,星期日,2025年,2月5日第1页,共47页,星期日,2025年,2月5日内容提要4.1引言4.2构造分类树4.3剪枝导论4.4模型评估
第2页,共47页,星期日,2025年,2月5日4.1引言分类树是使用树结构算法将数据分成离散类的方法。Breiman在20世纪80年代早期创造了该术语。该技术在医疗、市场调查统计、营销和顾客关系方面得到了很好的应用。例如,一个树结构分类器使用血压、年龄和先前的治疗情况将心脏病患者分成危险和不危险两类。另一种工具可能使用与年龄相关的变量和其他人口统计量决定谁应该出现在邮件发送清单上。预测对直接邮寄广告的反应和确定控制电信业顾客流失的方法都是具体行业的应用。第3页,共47页,星期日,2025年,2月5日决策树作用(1)下表的数据提供了什么信息?第4页,共47页,星期日,2025年,2月5日决策树作用(2)决策树的主要作用是揭示数据中的结构化信息。决策树汇总了数据,并揭示了其中隐藏的结构:规则:如果血压高,则采用药物A。如果血压低,则采用药物B。如果血压正常。年龄小于或等于40,则采用药物A,否则采用药物B。第5页,共47页,星期日,2025年,2月5日准确率、支持度、错误率该例得到的规则和对应的准确率和支持度是:如果血压高,则采用药物A(准确率100%,支持度3/12)。如果血压低,则采用药物B(准确率100%,支持度3/12)。如果血压正常并且年龄小于或等于40,则采用药物A(准确率100%,支持度3/12)。如果血压正常并且年龄大于40。则采用药物B(准确率100%,支持度3/12)。第6页,共47页,星期日,2025年,2月5日树生长的策略对于树生长的策略,算法主要考虑的问题:选择分裂变量的标准。找到被选择的变量的分裂点的标准(连续变量情况)。确定何时停止树生长过程的标准。第7页,共47页,星期日,2025年,2月5日决策树的分类目标变量和预测变量决策树根据目标变量的类型可分成分类树与回归树如果目标变量(也称为响应变量或类变量)是标称/分类变量(如处方药),则称该树为分类树(classificationtree)。如果目标变量是连续的(如“收入”),则称该树为回归树(regressiontree)。第8页,共47页,星期日,2025年,2月5日预测变量分类预测变量也可以一般地分为标称的或连续的。连续值变量的处理,大部分实际算法在构造树之前先将连续值变量转换成具有离散层次(或区间)的变量。第9页,共47页,星期日,2025年,2月5日4.2构造分类树4.2.1用于标称属性的lD3算法ID3代表归纳决策树(inductiondecision—tree)版本3,它是一种用来由数据构造决策树的递归过程。第10页,共47页,星期日,2025年,2月5日lD3算法的步骤试探性地选择一个属性放置在根节点,并对该属性的每个值产生一个分支。分裂根节点上的数据集,并移到子女节点,产生一棵局部树(partialtree)。对该划分的质量进行评估。对其他属性重复该过程。每个用于划分的属性产生一棵局部树。根据局部树的质量,选择一棵局部树。对选定的局部树的每个子女节点重复以上1-6步。这是一个递归过程。如果一个节点上的所有实例都具有相同的类,则停止局部树的生长。第11页,共47页,星期日,2025年,2月5日气象数据集示例(1)第12页,共47页,星期日,2025年,2月5日第13页,共47页,星期日,2025年,2月5日气象数据集示例(2)
您可能关注的文档
最近下载
- 2025华南农业大学教师招聘考试试题.docx VIP
- B737-NG快速检查单 2016_03_31整体版.pdf VIP
- 中国血管性认知障碍诊治指南(2024版)解读.pptx
- cs.ananas.chaoxing.comdownload55accda5e4b04cd76d.ppt VIP
- 农业植物病理学题库.docx VIP
- 扬州大学线性代数§1.1排列与逆序详解.ppt VIP
- 2025年平顶山鲁山县部分机关及所属事业单位选调工作人员60名笔试备考试题及答案解析.docx VIP
- 党支部工作条例试卷.pptx VIP
- 220kV永福变电站110kV梅花站对侧GIS扩建间隔一二次设备安装施工方案1.pdf VIP
- 2024华南农业大学教师招聘考试笔试试题.docx VIP
文档评论(0)