- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓储与数据挖掘讲义 第4章:数据预处理
4.1为什么要预处理数据? 4.2描述性数据汇总 4.3 数据清理 4.4数据集成和变换 4.5数据归约 4 . 6离散化和概念分层生成 4.1为什么要预处理数据? 现实世界的数据是“肮脏的” 不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据(如空值) e.g., occupation=“ ” 含噪声的:包含错误或者“孤立点” e.g., Salary=“-10” 不一致的:在编码或者命名上存在差异 e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C” e.g., discrepancy between duplicate records 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成 一、数据质量的多维度量 一个广为认可的多维度量观点: 精确度 完整度(如排除空值) 一致性 合乎时机 可信度 二、数据预处理的主要任务 数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 数据集成 集成多个数据库、数据立方体或文件 数据变换 规范化和聚集.如年薪与年龄,销售汇总信息 数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果.例如数据聚集、维归约、数据压缩、概化 数据离散化 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要 三、数据预处理的形式 4.2 描述性数据汇总 对于数据预处理,获得数据的总体印象非常重要.描述性数据汇总技术用来识别数据的典型特征,突显那些数据应当视为燥声和孤立点。用户经常关心的数据的典型特征包括数据的中心趋势和离散特征 中心趋势的度量包括:mean, median, mode 和 midrange 数据离散度量包括:quartiles, outliers, variance 和其他度量 在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何利 用关系数据库现有的函数来计算上述两类用户感兴趣的度量值 关系数据库中,系统提供了以下聚集函数:count(), sum(), avg(), max(), min() 4.2.1 度量中心趋势 中位数(median) : 如果值的个数n是奇数,则中位数是有序集合的中间值,否则它是中间两个数的平均值。 用插值法(interpolation)来近似计算: 度量的分类 一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类: 代数的(algebraic):函数可以通过应用一个代数函数于一个或者多个分布度量计算的度量。比如:avg(),standard_deviation() 例如: avg(A)= sum(A)/count(A) 可以通过保留sum(A)、count(A)进而计算avg。 4.2.2 度量数据的离散度 最常用度量:四分位数区间、标准差 一、四分位数、孤立点和盒图 百分位数(percentile):第k个百分位数是具有如下性质的值x:数据项的k%在x上或低于x 盒图——四分位数的直观表示 在盒图中: 端点在四分位数上,使得盒图的长度是IQR 中位数M用盒内的线标记 胡须延伸到最大最小观测值 该盒图为在给定时间段在AllElectronics的4个分店销售的商品单价的盒图 分店1 中位数$80 Q1: $60 Q3: $100 使用盒图的数据离散的可视化描述 二、方差和标准差 方差s2:n个观测之x1,x2...xn的方差是 4.2.2 基本统计类描述的图形显示一、直方图 常用的显示数据汇总和分布的方法: 直方图、分位数图、q-q图、散布图和局部回归曲线 直方图 一种单变量图形方法 由一组矩形组成,这些矩形反映类在给定数据中出现的技术或频率 4.3 数据清理4.3.1空缺值 数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载(不能恢复) 空缺值要经过推断而补上 如何处理空缺值 忽略元组:假定挖掘任务设计为分类或描述时,缺少类标号的元组通常被忽略。元组中属性缺少值比较多时,挖掘算法的效果非常差。如天气好坏\年龄 人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:比如使用unknown或-∞ 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最
您可能关注的文档
最近下载
- 劳动清单(课件)五年级劳动教育通用版.pptx VIP
- 下一站江湖代码.xlsx VIP
- 检治具的检测报告.xls VIP
- 2025-2026部编人教版小学语文3三年级上册(全册)教案【新教材】.doc
- 小学四年级劳动教育课件(劳动清单)PPT.pptx VIP
- 金蝶云星辰·点三电商OMS集成方案9.3.pptx VIP
- [防城港]2024年广西防城港市公安局招聘辅警57人笔试上岸历年典型考题与考点剖析附带答案详解.docx VIP
- 汽车运输危险货物规则(JT617).pdf VIP
- 整体道口大修施工组织设计解析.doc
- 14.4 旅游安全管理制度(政策与法律法规 第6版).pptx-有哪些信誉好的足球投注网站.pptx VIP
文档评论(0)