数据挖掘-分类课件.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘-分类课件

数据挖掘概念与技术 ——分类;事实的真相往往被层层迷雾所掩盖,我们不 能在杂乱无章的荆棘道路上横冲直撞,我们 要相信,磨刀不误砍柴工,当一大堆埋葬着 巨大财富但又杂乱无章的数据堆放在我们面 前的时候,好的分类方法,正确构建的分类 器可以帮助我们进行快速、准确的数据分类。;本章节学习脉络: 分类的一般方法;万物溯其源——何为分类;万物寻其因——分类有何作用;分类的一般方法分为两个阶段: 学习阶段(构件分类模型): 建立描述预先定义的数据类或概念集的分类器。 分类阶段(使用模型预测给定数据的类标 号): 在分类阶段,要使用检验数据来评估分类规则的准 确性。;分类的第一阶段:学习阶段;学习阶段理解的前期准备;Step1:建立训练集 训练集由数据库元组加上与它们相关联的类标号组成。 其中训练集中的元组称为训练元组。 训练集=数据元组+类标号(多组数据) 训练元组=数据元组+类标号(单个数据库元组) ;Step 2:分类算法通过分析或从训练集“学习” 来确定分类规则,从而构造分类器。 分类算法有很多:决策树、贝叶斯法等等。现在只 是举例说明分类的一般过程,算法具体的分析在后 面展开。 经过分类算法的分析以后,此例的分类规则如下;学习阶段的最终小结;分类阶段理解的前期准备;Step 1:选取检验集 如果以训练集中的训练元组来进行对分类器 准确率的检验,那无疑是不合理的,因为分 类器趋向于过分拟合。 某些数据太具有个性了,不适合来反映出共 性。于是应该选举检验集来进行对分类器准 确率的检验。 检验集=检验元组+相关的类标号 检验元组要选用数据库元组中未参与到训练 集中的元组。;Step 2:检验分类器的准确率 分类器在给定检验集上的准确率是分类器正 确分类的检验元组所占的百分比。 在后面会具体介绍一些估计分类器准确率的 方法。;I MISS YOU,OLD FRIEND ——决策树归纳;新鲜血液:上学期未接触过或为深入的问题 (1)分裂准则 (2)基尼指数 (3)树剪枝 (4)可伸缩性与决策树归纳 (5)决策树归纳的可视化挖掘;(a)属性A是离散值 分裂方法为直接按照各种不同的离散值分类 ;(b)属性A事连续值 分裂方法是设置一个分裂点(在实践中,分裂点a通 常取A的两个已知相邻值的中点,因此可能不是训 练数据中A的存在值)。分别对应两边区间的条件。;(c)A是离散值并且必须产生二叉树;(2)基尼指数: Q1:基尼指数到底是什么? 基尼指数是用来度量数据分区或训练元组集D 的不纯度的。定义式为: Gini(D)=1-∑pi2 其中pi是D中元组属于Ci类的概率 Q2:基尼指数有什么作用? 通过计算每个属性对于训练元组集D的基尼指 数来判断哪个属性可以使得训练元组集D的 “不纯度”降得最多,从而选举其为分裂属性。;Q3:什么是所谓的降低“不纯度”? 对于每个属性来说,都可以进行二元划分来 降低整个训练元组集D的不纯度,离散值属性 和连续值属性都可以进行相应的二元划分, 把整个训练元组集划分为两个部分D1,D2。 经过二元划分后,对于某个属性A来说,D的 基尼指数为: GiniA(D)=(∣D1 ∣/ ∣D∣)Gini(D1 )+ (∣D2∣/∣D∣)Gini(D2);属性A经过二元划分以后导致的不纯度降低为: △Gini(A)=Gini(D)- GiniA(D) 由此式可以很简单的看出,哪个属性进过二元 划分后自身的基尼指数最低,那么它就可以使 得整个训练元组集D的不纯度降低的最多,那 他显而易见是要做为老大的,就和信息增益中 那个信息增益值最大的属性一样,需要站在金 字塔的顶端,作为分裂属性。;简单的例子来说明基尼指数进行决策树归纳的过程:电脑店 做销售预测,收集到了一些客户的基本信息作为资料,属性 包括:年龄、收入、是否为学生、信用评级。类标号为:买、 不买。;(1)类标号分为两种情况:买、不买,对应 于C1,C2。 (2)现在知道一共14个训练数据中,有9个 的类标号属于C1,5个的类标号属于C2。 (3)首先计算训练元组集D的“不纯度” Gini(D)=1-(9/14)2-(5/14) 2=0.459 (4)到此,思路明确,哪个属性可以使不纯 度降低最多,哪个属性就是老大,它和它的 分裂子集或者分裂点就一起形成分裂准则。 ;(5)排好队一个个属性接受检验,以收入(income)为例: 该属性为离散属性,共有三个可能值{low,medium,high},对 这个属性进行二元划分。这个属性为离散值属性,它存在八 个子集,不考虑空集和全集,因为空集全集对D不纯度的降 低没有任何意义。 六个有效子集为:{low,medium}、{low,hi

文档评论(0)

gm8099 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档