- 1、本文档共58页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data Warehousing/Mining Comp 150 DW Chapter 3: Data Preprocessing Instructor: Dan Hebert Chapter 3: Data Preprocessing Why preprocess the data? Data cleaning Data integration and transformation Data reduction Discretization and concept hierarchy generation Summary Why Data Preprocessing? Data in the real world is dirty incomplete: lacking attribute values, lacking certain attributes of interest, or containing only aggregate data noisy: containing errors or outliers inconsistent: containing discrepancies in codes or names No quality data, no quality mining results! Quality decisions must be based on quality data Data warehouse needs consistent integration of quality data Multi-Dimensional Measure of Data Quality A well-accepted multidimensional view: Accuracy Completeness Consistency Timeliness Believability Value added Interpretability Accessibility Broad categories: intrinsic, contextual, representational, and accessibility. Major Tasks in Data Preprocessing Data cleaning Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies Data integration Integration of multiple databases, data cubes, or files Data transformation Normalization and aggregation Data reduction Obtains reduced representation in volume but produces the same or similar analytical results Data discretization Part of data reduction but with particular importance, especially for numerical data Forms of data preprocessing Data Cleaning Data cleaning tasks Fill in missing values Identify outliers and smooth out noisy data Correct inconsistent data Missing Data Data is not always available E.g., many tuples have no recorded value for several attributes, such as customer income in sales data Missing data may be due to equipment malfunction inconsistent with other recorded data and thus deleted data not entered due to misunderstanding certain data may not be considered important at the time of entry not register history or changes of the data Missing data m
您可能关注的文档
- (解析版人教版按章节)2011全国中考物理试题汇编.doc
- “初中数学互动生成的课堂教学模式研究”课题结题报告.doc
- “第十三届全国多媒体课件大赛”课件评分标准(2013年版).doc
- “国培计划——农村中小学骨干教师.ppt
- “吉林省第三届职业技术院校多媒体教育教学课件大赛”评审标准.doc
- “吉林省第四届中小学多媒体教育教学课件大赛”评审标准.doc
- “吉林省第五届中小学多媒体教育教学课件大赛”评审标准.doc
- “理论物理前沿暑期讲习班”建议书.doc
- “认识容量和升”教学设计.doc
- “世界物理年纪念”首批入围推荐书目.doc
- 浙江金华市公共资源交易中心永康市分中心编外人员招考聘用笔试历年典型考题及考点研判与答案详解.docx
- 浙江宁波慈溪市政协办公室招考聘用编外工作人员笔试历年典型考题及考点研判与答案详解.docx
- 浙江金华永康市西溪镇人民政府招考聘用笔试历年典型考题及考点研判与答案详解.docx
- 福建南平市公安局建阳分局招考聘用辅警笔试历年典型考题及考点研判与答案详解.docx
- 浙江嘉兴海盐县武原街道基层残疾人工作专职委员(公益岗位)招考聘用笔试历年典型考题及考点研判与答案详解.docx
- 浙江宁波知识产权保护中心招考聘用工作人员笔试历年典型考题及考点研判与答案详解.docx
- 浙江杭州建德市面向2024届普通高校毕业生招考聘用教师(第二批)16人笔试历年典型考题及考点研判与答案详解.docx
- 浙江省台州中学面向2024届普通高校毕业生招考聘用教师12人笔试历年典型考题及考点研判与答案详解.docx
- 湖北师范大学体育学院专任教师招考聘用笔试历年典型考题及考点研判与答案详解.docx
- 重庆市南岸区教育事业单位面向2024届高校毕业生招考聘用114人笔试历年典型考题及考点研判与答案详解.docx
最近下载
- 《大气辐射学》期末复习试题及答案.pdf
- HTML5跨平台开发基础智慧树知到期末考试答案章节答案2024年深圳信息职业技术学院.docx
- 大学英语学术写作(南京大)中国大学MOOC慕课 章节测验 客观题答案.docx
- 石斑鱼育苗育种养殖技术精要.ppt
- 2024年必威体育精装版-测绘地理信息安全必威体育官网网址管理制度.docx
- 新世纪英专本科生系列(修订版)英语阅读 第2册 参考答案.pdf
- P2P网络借贷平台风险控制研究.doc
- 2023年副高(超声医学与技术)考试真题卷(含答案)M10D19.docx
- 环艺设计心理学案例分析.pptx
- 高新技术企业高新收入及研发支出审计咨询服务方案.docx
文档评论(0)