第二章：数据预处理2概述.pptx

下载文档 降价啦

9
0
约2.36千字
约 67页
2017-05-07 发布于湖北
举报
版权申诉
保障服务

第二章：数据预处理2概述.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘;本章内容;2.0 认识数据;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;本章内容;现实世界的数据是“脏的” 不完整(incomplete) 缺少数据值；缺乏某些重要属性；仅包含汇总数据有噪声(noisy) 包含错误或者孤立点(outliers) 数据不一致(inconsistent) e.g., 在编码或者命名上存在差异 e.g., Age=“42” Birthday=“03/07/1997” ;广为认可的数据质量多维度量精确度完整度一致性时效性 ;2.1 为什么要预处理数据;2.1 为什么要预处理数据;本章内容;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;分箱方法 price的排序后数据：4，8，15，21，21，24，25，28，34 划分为（等深的）箱：箱1：4，8，15 箱2：21，21，24 箱3：25，28，34 用箱平均值平滑：箱1：9，9，9 箱2：22，22，22 箱3：29，29，29 用箱边界平滑：箱1：4，4，15 箱2：21，21，24 箱3：25，25，34;回归;通过聚类分析检测离群点，消除噪声：聚类将类似的值聚成簇。直观的，落在簇集合之外的值被视为离群点;本章内容;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数??集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;数据变换：将数据转换或统一成适合挖掘的形式平滑：去除数据中的噪声聚集：汇总，数据立方体的构建数据泛化：沿概念分层向上汇总规范化：将数据按比例缩放，使之落入一个小的特定区间最小－最大规范化 z-score规范化小数定标规范化属性构造：通过现有属性构造新的属性，并添加到属性集中；以增加对高维数据的结构的理解和精确度;最小－最大规范化 z-score规范化：最大最小值未知，或者离群点影响较大的时候适用小数定标规范化 ;本章内容;2.4 数据归约;2.4 数据归约;2.4 数据归约;2.4 数据归约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 离散化和概念分层;典型方法分箱（binning）直方图分析（histogram）聚类分析通过自然划分分段自然划分分段:将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间聚类分析产生概念分层可能会将一个工资区间划分为：[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000，60000] ;分类数据是指无序的离散数据，它有有限个值（可能很多个）。根据在给定属性集中，每个属性所包含的不同值的个数，可以自动的生成概念分成；不同值个数最多的属性将被放在概念分层的最底层。 ;Data attribute types: nominal, binary, ordinal, interval-scaled, ratio-scaled Many types of data sets, e.g., numerical, text, graph, Web, image. Basic statistical data description: central