- 1、本文档共79页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
刘海飞
数据挖掘模型
2
数据挖掘概念与流程
数据挖掘模型介绍
决策树模型
聚类模型
关联模型
回归模型
时间序列模型
主成分与因子模型
神经网络模型
目录
数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术。
3个步骤:数据准备、规律寻找和规律表示。
挖掘任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
由Daimler Chrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论(Http://)
CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用。CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。
3
数据挖掘--CRISP-DM模型
4
数据挖掘--CRISP-DM模型
CRISP-DM模型过程的挖掘流程包括:业务理解、数据理解、数据准备、建立模型、模型评价、模型实施。
CRISP-DM数据挖掘流程
数据挖掘(Data Mining)技术主要无监督和有监督两大类。无监督数据挖掘:不区别对待各个变量,而只是考察变量间的关系。有监督数据挖掘:从数据中获得深度细致的信息,根据一些变量建立模型,来预测另一些变量。
有监督数据挖掘方法:聚类分析、因子分析、主成分分析、神经网络、预测等;
无监督数据挖掘方法: 关联规则挖掘、时序挖掘、偏差分析等。
5
数据挖掘技术
6
找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有决策树算法、贝叶斯分类和支持向量机算法(Support Vector Machine)等等。
分类算法
决策树分类模型的工作过程图
Building Tree
基本思想:提取分类规则,进行分类预测
决策树进行分类步骤
决策树生成算法分成两个步骤
树的生成
开始,数据都在根节点
递归的进行数据分片
树的修剪
去掉一些可能是噪音或者异常的数据
决策树使用: 对未知数据进行分割
按照决策树上采用的分割属性逐层往下,直到一个叶子节点
决策树算法
基本算法(贪心算法)
自上而下分而治之的方法
开始时,所有的数据都在根节点
属性都是种类字段 (如果是连续的,将其离散化)
所有记录用所选属性递归的进行分割
属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain:信息增益)
停止分割的条件
一个节点上的数据都是属于同一个类别
没有属性可以再用于对数据进行分割
伪代码(Building Tree)
Procedure BuildTree(S)
用数据集S初始化根节点R
用根结点R初始化队列Q
While Q is not Empty do {
取出队列Q中的第一个节点N
if N 不纯 (Pure) {
for 每一个属性 A
估计该节点在A上的信息增益
选出最佳的属性,将N分裂为N1、N2
}
}
信息增益度度量
任意样本分类的期望信息:
I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m)
其中,数据集为S,m为S的分类数目, Pi
Ci为某分类标号,Pi为任意样本属于Ci的概率, si为分类Ci上的样本数
由A划分为子集的熵:
E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj)
A为属性,具有V个不同的取值
信息增益:Gain(A)= I(s1,s2,……,sm) - E(A)
训练集(举例)
使用信息增益进行属性选择
Class P: buys_computer = “yes”
Class N: buys_computer = “no”
I(p, n) = I(9, 5) =0.940
Compute the entropy for age:
Hence
Similarly
使用信息增益进行属性选择
使用信息增益进行属性选择
使用信息增益进行属性选择
使用信息增益进行属性选择
使用信息增益进行属性选择
Decision Tree (结果输出)
age?
overcast
student?
credit rating?
no
yes
fair
excellent
=30
40
no
no
yes
yes
yes
30..40
20
1决策树
优点:
1)可以生成可以理解的规则;
2)计算量相对来说不是很
您可能关注的文档
- 建筑电气施工图工程量计算_实例详细讲解.ppt
- 健康管理师培训[完整版].ppt
- 健康跑活动方案课件.ppt
- 江苏金彭车业有限公司企业形象宣传方案《金色驱动制胜未来》(撰稿_匡雪吉,2010_12_2).ppt
- 江苏省2014年高考数学(文)二轮复习简易通配套课件_常考问题8平面向量的线性运算和综合应用.ppt
- 结构长城杯工程质量评审标准[详].ppt
- 解读医疗核心制度(汇编).ppt
- 介入超声在临床中的应用.ppt
- 精神病患者拒食的_护理.ppt
- 精准医学时代肺癌诊疗策略和实践.ppt
- 教科版(2017秋)科学二年级上册2.6 做一顶帽子 教学设计.docx
- 河北高频考点专训四 质量守恒定律的应用教学设计---2024-2025学年九年级化学人教版(2024)上册.docx
- 大单元教学【核心素养目标】6.3 24时计时法教学设计 人教版三年级下册.docx
- 河南省商城县李集中学2023-2024学年下学期九年级历史中考模拟八(讲评教学设计).docx
- 第18章 第25课时 正方形的性质2023-2024学年八年级下册数学课时分层作业教学设计( 人教版).docx
- Module 8 模块测试 教学设计 2024-2025学年英语外研版八年级上册.docx
- 2024-2025学年小学数学五年级下册浙教版教学设计合集.docx
- 2024-2025学年小学劳动四年级下册人民版《劳动》(2022)教学设计合集.docx
- 2024-2025学年小学数学三年级上册冀教版(2024)教学设计合集.docx
- 2024-2025学年高中生物学必修1《分子与细胞》人教版教学设计合集.docx
文档评论(0)