数据挖掘建模——分类方法—方晓萍要点.ppt

数据挖掘建模——分类方法—方晓萍要点.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘建模——分类方法—方晓萍要点.ppt

* * * * 在Analyze?Classify下: K-Means Cluster: 观测量快速聚类分析过程 Hierarchical Cluster:分层聚类(进行观测量聚类和变量聚类的过程 Discriminant:进行判别分析的过程 决策树 从数据中生成分类器的一个特别有效的方法是生成决策树。决策树表示法是应用最广泛的逻辑方法。许多决策树归纳算法主要是在机器学习和应用统计文献中出现,它们是通过一组输入输出本样构建决策树的有指导学习方法,是分类和回归的高效的非参数化方法。 决策树(Decision Tree) 决策树学习是以实例为基础的归纳学习,是一种描述概念空间的有效的归纳推理办法。从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。基于决策树的学习方法可以进行不相关的多概念学习,具有简单快捷的优势,已经在各个领域取得广泛应用。 决策树(Decision Tree) 决策树是一种树型结构,其中: 每个内部结点表示在一个属性上的测试 每个分支代表一个测试输出 每个叶结点代表一种类别 决策树(Decision Tree) 树是由节点和分枝组成的层次数据结构。节点用于存贮信息或知识,分枝用于连接各个节点。树是图的一个特例,图是更一般的数学结构,如贝叶斯网络。 决策树是描述分类过程的一种数据结构,从上端的根节点开始,各种分类原则被引用进来,并依这些分类原则将根节点的数据集划分为子集,这一划分过程直到某种约束条件满足而结束。 根结点 个子大 可能是松鼠 可能是老鼠 可能是大象 在水里 会吱吱叫 鼻子长 脖子长 个子小 不会吱吱叫 鼻子短 脖子短 可能是长颈鹿 在陆地上 可能是犀牛 可能是河马 主要的决策树算法有: ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。 决策树 收集待分类的数据,这些数据的所有属性应该是完全标注的。 设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量化。 分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树更令人满意。 设计分类停止条件,实际应用中数据的属性很多,真正有分类意义的属性往往是有限几个,因此在必要的时候应该停止数据集分裂: 该节点包含的数据太少不足以分裂, 继续分裂数据集对树生成的目标(例如ID3中的熵下降准则)没有贡献, 树的深度过大不宜再分。 通用的决策树分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小最大的准则,这种方案使最具有分类潜力的准则最先被提取出来 构造一棵决策树要解决四个问题: 银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类)? 我们需要构造一个分类器来预测类属编号,比如预测顾客属类 预测变量 目标变量 记录 样本 类标号属性 类别集合:Class={“优”,“良”,“差”} 决策树的基本原理 根节点 叶子节点 分裂属性 分裂谓词 每一个叶子节点都被确定一个类标号 每一个节点都代表了一个数据集。 根节点1代表了初始数据集D 其它节点都是数据集D的子集。 例如,节点2代表数据集D中年龄小于40岁的那部分样本组成的数据集。 子节点是父节点的子集。 If (年龄40) and (职业=“学生” or职业=“教师”) Then 信用等级=“优” If (年龄40) and (职业!=“学生”and职业!=“教师”) Then 信用等级=“良” If (年龄≥40) and (月薪1000) Then 信用等级=“差” If (年龄≥40) and (月薪≥1000 and月薪≤3000) Then 信用等级=“良” If (年龄≥40) and (月薪3000) Then 信用等级=“优” 要构造一个好的分类器,所需要的训练样数与区域的数量成正比。分类越复杂,需要的区域越多,描述区域的规则也越多,树的复杂度越高。需要更多的训练样本,才能得到成功的分类。 支持向量机 支持向量是指那些在间隔区边缘的训练样本点。 “机(machine,机器)”实际上是一个算法。在机器学习领域,常把一些算法看做是一个机器。 支持向量机 支持向量机(SVM,Support Vector Machine)是Vapnik根据统计学习理论提出的一种新的学习方法,它的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。 对于分类问题,支持向量机算法根据区域中的样本计

文档评论(0)

love + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档