- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘(第八章)
第八章 分类与预测 第八章 目录 8.1 分类过程 8.2 决策树分类 8.3 前馈神经网络分类 8.4 贝叶斯分类 8.5 回归分析 8.6 本章小结 引言(1) 分类的任务是通过分析由已知类别数据对象组成的训练数据集,建立描述并区分数据对象类别的分类函数或分类模型(也常常称作分类器)。 分类的目的是利用分类模型预测未知类别数据对象的所属类别。 引言(2) 分类和聚类是两个容易混淆的概念,事实上它们具有显著区别。在分类中,为了建立分类模型而分析的数据对象的类别是已知的,然而,在聚类时处理的所有数据对象的类别都是未知的。因此,分类是有指导的,而聚类是无指导的。 引言(3) 数据分类与数值预测都是预测问题,都是首先通过分析训练数据集建立模型,然后利用模型预测数据对象。但是,在数据挖掘中,如果预测目标是数据对象在类别属性(离散属性)上的取值(类别),则称为分类;如果预测目标是数据对象在预测属性(连续属性)上的取值或取值区间,则称为预测。 例如,对100名男女进行体检,测量了身高和体重,但是事后发现,a和b两人忘了填写性别,c和d两人漏了记录体重。现在根据其他96人的情况,推断a和b两人的性别是分类,而估计c和d两人的体重是预测。 8.1 分类过程(1) 分类过程分为两个阶段:学习阶段与分类阶段,如图8.1所示,图中左边是学习阶段,右边是分类阶段。 图8.1 分类过程 8.1 分类过程(2) 1. 学习阶段 (1)建立分类模型:通过分类算法分析训练数据集建立分类模型。 训练数据集S中的元组或记录称为训练样本,每个训练样本由m+1个属性描述,其中有且仅有一个属性称为类别属性,表示训练样本所属的类别。属性集合可用矢量X=(A1, …, Am, C)表示,其中Ai(1≤i≤m)对应描述属性,可以具有不同的值域,当一个属性的值域为连续域时,该属性称为连续属性(Numerical Attribute),否则称为离散属性(Discrete Attribute);C表示类别属性,C=(c1, c2, …, ck),即训练数据集有k个不同的类别。 8.1 分类过程(3) 分类算法有决策树分类算法、神经网络分类算法、贝叶斯分类算法、k-最近邻分类算法、遗传分类算法、粗糙集分类算法、模糊集分类算法等。分类算法可以根据下列标准进行比较和评估。 1)准确率。涉及分类模型正确地预测新样本所属类别的能力。 2)速度。涉及建立和使用分类模型的计算开销。 3)强壮性。涉及给定噪声数据或具有空缺值的数据,分类模型正确地预测的能力。 4)可伸缩性。涉及给定大量数据,有效地建立分类模型的能力。 5)可解释性。涉及分类模型提供的理解和洞察的层次。 分类模型有分类规则、判定树等。 8.1 分类过程(4) (2)评估分类模型的准确率:利用测试数据集评估分类模型的准确率。 测试数据集中的元组或记录称为测试样本。 分类模型正确分类的测试样本数占总测试样本数的百分比称为该分类模型的准确率。如果分类模型的准确率可以接受,就可以利用该分类模型对新样本进行分类。否则,需要重新建立分类模型。 8.1 分类过程(5) 评估分类模型准确率的方法有保持(holdout)、k-折交叉确认等。 保持方法将已知类别的样本随机地划分为训练数据集与测试数据集两个集合,一般,训练数据集占2/3,测试数据集占1/3。分类模型的建立在训练数据集上进行,分类模型准确率的评估在测试数据集上进行。 k-折交叉确认方法将已知类别的样本随机地划分为大小大致相等的k个子集S1, …, Sk,并进行k次训练与测试。第i次,子集Si作为测试数据集,分类模型准确率的评估在其上进行,其余子集的并集作为训练数据集,分类模型的建立在其上进行。进行k次训练得到k个分类模型,当利用分类模型对测试样本或者新样本进行分类时,可以综合考虑k个分类模型的分类结果,将出现次数最多的分类结果作为最终的分类结果。 8.1 分类过程(6) 2. 分类阶段 分类阶段就是利用分类模型对未知类别的新样本进行分类。 数值预测过程: 与数据分类过程相似。首先通过分析由预测属性取值已知的数据对象组成的训练数据集,建立描述数据对象特征与预测属性之间的相关关系的预测模型,然后利用预测模型对预测属性取值未知的数据对象进行预测。 数值预测技术主要采用回归统计技术,例如,一元线性回归、多元线性回归、非线性回归等。 8.2 决策树分类8.2.1 决策树(1) 决策树:一棵决策树由一个根节点,一组内部节点和一组叶节点组成。每个内部节点(包括根节点)表示在一个属性上的测试,每个分枝表示一个测试输出,每个叶节点表示一个类,有时不同的叶节点可以表示相同的类。 8.2.1 决策树(2) 图8.2 判断顾客是否购买计算机的决策树
您可能关注的文档
最近下载
- 注册香港公司的香港投资环境介绍。.doc VIP
- 9《天上有颗南仁东星》课件 统编版语文八年级上册.pptx VIP
- 第8讲 二《德不可空谈》课件 学生读本高年级 (1).pptx
- 脚手架、满堂架钢管、扣件用量的计算.xls VIP
- 1-3-4氧化还原反应配平教学设计2023-2024学年高一上学期化学人教版(2019)必修第一册.docx VIP
- 石油化工金属管道布置设计规范.docx VIP
- 中国IBD蓝皮书 -中国炎症性肠病医患认知 暨生存质量报告 溃疡性结肠炎部分.docx
- AB变频器PowerFlex 700 说明书.pdf VIP
- 压覆影响区范围的确定、压覆矿产资源调查报告编写提纲、评估报告编写提纲.docx VIP
- 公安辅警综合基础知识题库汇总及答案解析.docx VIP
文档评论(0)