基于数据挖掘的数据质量分析研究’.pdfVIP

基于数据挖掘的数据质量分析研究’.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘的数据质量分析研究 基于数据挖掘的数据质量分析研究’ 于波 王宏鼎 唐世渭 童云海 北京大学信息科学技术学院,北京 100871 摘 要 本文对基于数据挖掘的数据质蚤分析研究进行了综述.首先介绍了数据质量的定义、分类 和相关研究,然后具体分析了基于数据挖掘的数据质量分析的提出、研究现状、分析框架和步骤,最 后对将来的研究问题进行了展望。 关健词 数据质量 数据挖掘 隐藏规则 1 引 言 在信息化时代,数据是企业生产和运行的基础,其质量好坏直接影响着企业的生存和效益。据DataFlux 和SAS研究表明U1,美国企业每年要花费将近6000亿美元,约50%-80%的工作量在数据质量问题上。错 误的数据导致错误的决策,因此,在进行信息系统建设时,企业越来越重视数据质量问题。 数据质量分析是指进行数据集成时,发现并解决质量问题的过程,也叫做数据清洗,如对象识别和合 并、孤立点检测和处理、语义冲突检测和处理等。最初,研究人员主要是在领域知识指导下,结合元数据、 统计学、排序等技术进行数据质量分析。但是很多质量问题隐藏在数据之中,不易被这些方法发现。由于 数据挖掘在发现隐藏模式上的突出特点,近来利用数据挖掘方法进行数据质量分析逐渐成为研究重点。本 文将对该领域的研究现状进行综述,并对未来研究问题进行展望。 2 数据质量及其相关研究 2.1数据质量定义及其问题分类 按照TDQM的定义2[1,数据质量是一致地满足用户要求的程度。通常以精确性 (accuracy)、完整性 (completeness)、有效性 (validity)、一致性 (consistency)、及时性 (timeliness)等指标来衡量。 随着企业数据规模和信息需求的日渐扩大,企业的生产经营活动越来越依赖于高质量的数据。但由.于 技术、时间、标准和需求方面的变化,目前的信息系统都存在一些质量问题,如缺少完整性约束、缺失数 据、拼写与输入错误、计算错误等。尤其在数据仓库、联邦数据库等涉及数据集成的系统建设中,数据质 量问题更为突出,如存在大量的相似重复记录、模式冲突和语义冲突等。 在多数据源 情况下,按质量问题出现的层次,数据质量问题可以分为两类:模式级 (schema-level)问 n i i 题和实例级 ( ontent)问题。模式层问题是指由于模式信息不同所导致的质量问题,如异构的数据 源系统、命名冲突、类型冲突、约束冲突、结构冲突等。实例层问题是指在基础数据上存在的质量问题, 如缺失值、可疑数据、错误拼写、相似重复记录等。其中实例层问题最为复杂,本文关注更多的是此方面 的问题。 .基金项目:国家 “973重点基础研究发展规划项目((G1999032705)和国家 “十五”科技攻关计划(2001BA102A01)资助: 男,新疆乌鲁木齐人,博士研究生,主要研究方向:数据库与信息系统;王宏鼎 (1976-)男, 河南许昌人,博士研究生,主要研究方向:数据库与信息系统;唐世渭 (1939-),男,浙江人, 数据库与信息系统:盒云海 (1971一),男,浙江人,讲师。主要研究方向为数据库与信息系统 830 计算机技术与应用进展 .2004 旦旦巨旦旦旦目.目巨目巨..巨 2.2 相关研究 为了解决数据质量问题,研究人员提出了很多数据质量分析方法。例如,利用回归分析和统计学方法 来预测缺失值[31,利用基于密度、距离的方法或业务规则来检测可疑数据或奇异点141利用n-gram[51, sorted-neighborhood161,domain-independentpriority-queue17]等。排‘序一合并,,方法来实现相似重复记录的识别。 此外,也有不少公司开发了质量分析工具,如QMSoft,Harte-HanksTechnologies,ValityTechnology等。 但由于这些工具只提供有限的清洗功能或针对特定领域,不具有较好的通用性,因此近些年有些研究人员 开始进行可扩展的数据清洗框架研究,文献[[81提出了一个数据清洗框架,实现了逻辑规范层和物理实现

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档