- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘;本章内容;2.0 认识数据;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;本章内容;现实世界的数据是“脏的”
不完整(incomplete)
缺少数据值;缺乏某些重要属性;仅包含汇总数据
有噪声(noisy)
包含错误或者孤立点(outliers)
数据不一致(inconsistent)
e.g., 在编码或者命名上存在差异
e.g., Age=“42” Birthday=“03/07/1997”
;广为认可的数据质量多维度量
精确度
完整度
一致性
时效性
;2.1 为什么要预处理数据;2.1 为什么要预处理数据;本章内容;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;分箱方法
price的排序后数据:4,8,15,21,21,24,25,28,34
划分为(等深的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用箱平均值平滑:
箱1:9,9,9
箱2:22,22,22
箱3:29,29,29
用箱边界平滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34;回归;通过聚类分析检测离群点,消除噪声:聚类将类似的值聚成簇。直观的,落在簇集合之外的值被视为离群点;本章内容;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数??集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;数据变换:将数据转换或统一成适合挖掘的形式
平滑:去除数据中的噪声
聚集:汇总,数据立方体的构建
数据泛化:沿概念分层向上汇总
规范化:将数据按比例缩放,使之落入一个小的特定区间
最小-最大规范化
z-score规范化
小数定标规范化
属性构造:通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据的结构的理解和精确度;最小-最大规范化
z-score规范化:最大最小值未知,或者离群点影响较大的时候适用
小数定标规范化
;本章内容;2.4 数据归约;2.4 数据归约;2.4 数据归约;2.4 数据归约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 离散化和概念分层;典型方法
分箱(binning)
直方图分析(histogram)
聚类分析
通过自然划分分段
自然划分分段:将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间
聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34]
通常数据分析人员希望看到划分的形式为[50000,60000]
;分类数据是指无序的离散数据,它有有限个值(可能很多个)。
根据在给定属性集中,每个属性所包含的不同值的个数,可以自动的生成概念分成;不同值个数最多的属性将被放在概念分层的最底层。
;Data attribute types: nominal, binary, ordinal, interval-scaled, ratio-scaled
Many types of data sets, e.g., numerical, text, graph, Web, image.
Basic statistical data description: central
文档评论(0)