第二章:数据预处理2概述.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘;本章内容;2.0 认识数据;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据对象与属性类型;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;2.0 认识数据 – 数据基本统计描述;本章内容;现实世界的数据是“脏的” 不完整(incomplete) 缺少数据值;缺乏某些重要属性;仅包含汇总数据 有噪声(noisy) 包含错误或者孤立点(outliers) 数据不一致(inconsistent) e.g., 在编码或者命名上存在差异 e.g., Age=“42” Birthday=“03/07/1997” ;广为认可的数据质量多维度量 精确度 完整度 一致性 时效性 ;2.1 为什么要预处理数据;2.1 为什么要预处理数据;本章内容;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;2.2 数据清洗;分箱方法 price的排序后数据:4,8,15,21,21,24,25,28,34 划分为(等深的)箱: 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34 用箱平均值平滑: 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29 用箱边界平滑: 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34;回归;通过聚类分析检测离群点,消除噪声:聚类将类似的值聚成簇。直观的,落在簇集合之外的值被视为离群点;本章内容;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;2.3 数??集成和变换;2.3 数据集成和变换;2.3 数据集成和变换;数据变换:将数据转换或统一成适合挖掘的形式 平滑:去除数据中的噪声 聚集:汇总,数据立方体的构建 数据泛化:沿概念分层向上汇总 规范化:将数据按比例缩放,使之落入一个小的特定区间 最小-最大规范化 z-score规范化 小数定标规范化 属性构造:通过现有属性构造新的属性,并添加到属性集中;以增加对高维数据的结构的理解和精确度;最小-最大规范化 z-score规范化:最大最小值未知,或者离群点影响较大的时候适用 小数定标规范化 ;本章内容;2.4 数据归约;2.4 数据归约;2.4 数据归约;2.4 数据归约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 数值规约;2.4 数据归约 - 离散化和概念分层;典型方法 分箱(binning) 直方图分析(histogram) 聚类分析 通过自然划分分段 自然划分分段:将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] ;分类数据是指无序的离散数据,它有有限个值(可能很多个)。 根据在给定属性集中,每个属性所包含的不同值的个数,可以自动的生成概念分成;不同值个数最多的属性将被放在概念分层的最底层。 ;Data attribute types: nominal, binary, ordinal, interval-scaled, ratio-scaled Many types of data sets, e.g., numerical, text, graph, Web, image. Basic statistical data description: central

文档评论(0)

金不换 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档