数据挖掘模型介绍2016.ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
刘海飞 数据挖掘模型 2 数据挖掘概念与流程 数据挖掘模型介绍 决策树模型 聚类模型 关联模型 回归模型 时间序列模型 主成分与因子模型 神经网络模型 目录 数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术。 3个步骤:数据准备、规律寻找和规律表示。 挖掘任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 由Daimler Chrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论(Http://) CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用。CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。 3 数据挖掘--CRISP-DM模型 4 数据挖掘--CRISP-DM模型 CRISP-DM模型过程的挖掘流程包括:业务理解、数据理解、数据准备、建立模型、模型评价、模型实施。 CRISP-DM数据挖掘流程 数据挖掘(Data Mining)技术主要无监督和有监督两大类。无监督数据挖掘:不区别对待各个变量,而只是考察变量间的关系。有监督数据挖掘:从数据中获得深度细致的信息,根据一些变量建立模型,来预测另一些变量。 有监督数据挖掘方法:聚类分析、因子分析、主成分分析、神经网络、预测等; 无监督数据挖掘方法: 关联规则挖掘、时序挖掘、偏差分析等。 5 数据挖掘技术 6 找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有决策树算法、贝叶斯分类和支持向量机算法(Support Vector Machine)等等。 分类算法 决策树分类模型的工作过程图 Building Tree 基本思想:提取分类规则,进行分类预测 决策树进行分类步骤 决策树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的进行数据分片 树的修剪 去掉一些可能是噪音或者异常的数据 决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点 决策树算法 基本算法(贪心算法) 自上而下分而治之的方法 开始时,所有的数据都在根节点 属性都是种类字段 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain:信息增益) 停止分割的条件 一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割 伪代码(Building Tree) Procedure BuildTree(S) 用数据集S初始化根节点R 用根结点R初始化队列Q While Q is not Empty do { 取出队列Q中的第一个节点N if N 不纯 (Pure) { for 每一个属性 A 估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2 } } 信息增益度度量 任意样本分类的期望信息: I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m) 其中,数据集为S,m为S的分类数目, Pi Ci为某分类标号,Pi为任意样本属于Ci的概率, si为分类Ci上的样本数 由A划分为子集的熵: E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj) A为属性,具有V个不同的取值 信息增益:Gain(A)= I(s1,s2,……,sm) - E(A) 训练集(举例) 使用信息增益进行属性选择 Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age: Hence Similarly 使用信息增益进行属性选择 使用信息增益进行属性选择 使用信息增益进行属性选择 使用信息增益进行属性选择 使用信息增益进行属性选择 Decision Tree (结果输出) age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 20 1决策树 优点:   1)可以生成可以理解的规则;   2)计算量相对来说不是很

您可能关注的文档

文档评论(0)

xiangxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档