基于元数据的数据质量分析评估系统模型及其实现.pdfVIP

基于元数据的数据质量分析评估系统模型及其实现.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于元数据的数据质量分析评估 系统模型及实坝 刘学霞 曾昭虎 周志光 (大庆油田有限责任公司第五采油厂) 摘要该文针对企业数据的质量管理问题,提出了基于元数据的数据质量分析评估系统实 现模型,指出通过元数据模型完成数据质量控制标准的映射,并支持数据质量定义模型到分析 评估模型的映射和实现的观点。文章对数据质量定义、控制标准、分析评估算法和元数据等模 型要素进行了详细的阐述,并对该系统模型的实现方法进行了深入讨论。 关键词数据质量元数据系统模型标准分析评估算法 企业的数据是一个增量累积的过程,即便目前对数据质量控制高度重视,但对大量的历 史数据的质量评价依然是困扰企业的一个难点,究竟数据有什么样的问题,能不能满足应 用,问题数据整改的工作量有多大,还应该做哪些质量控制工作等,这些已经成为企业开发 诸如数据仓库、ERP、决策支持等高端应用的瓶颈。因而急需搭建这样一个系统平台,完成 对数据质量的分析与评估乃至控制工作。 目前业界对数据质量的研究工作相对零乱,主要体现在数据质量的定义不能统一、数据 质量仅靠定性而不能量化评价、理论研究没有与实际结合、缺乏软件开发支持等。鉴于此, 笔者提出了基于元数据的数据质量分析评估系统模型。 1系统模型 本文提出的基于元数据的数据质量分析评估系统模型可用图1表示。其中,进行数据质 量分析评估的依据为数据质量控制标准,分析评估的算法基于数据质量定义模型,这些模型 图1数据质量分析评估系统模型 的交互和映射通过元数据模型来实现。构成整个系统模型的要素分别为数据质量定义模型、 数据质量控制标准模型、元数据模型、数据质量分析评估模型。在文中将对这些要素进行详 细阐述。 2数据质量定义模型 没有对数据质量的统一定义,就无从谈起对数据质量的分析评估,而分析评估结论的可 信度就会丧失。本模型提出,数据质量可用冗余性、完整性、准确性、一致性、深度性、及 时性6个关键特性来衡量,每个关键特性又可以通过不同的可量化指标,来从不同的角度反 映这一数据质量关键特性。 2.1完整性 完整性用于评价所捕获的事件或实体间的差距或记录间的差距,以及所捕获的事件或实 体的信息满足量的程度。 完整性可用多个具有一定关联关系的指标来具体体现,如“缺少记录数”与“记录完整 性”体现了实际数据记录数与期望的记录数间的差异;“缺少数据项个数”与“结构完整性” 体现了由于缺少数据项定义而引起的完整性问题;“问题数据项个数”、“问题数据个数”、 “问题记录数”、“质量问题记录覆盖率”、“数据完整性”等指标体现了存在违反非空约束规 则的数据质量问题;而“完整性”和“加权完整性”则为综合考虑记录完整性、结构完整 性、数据完整性,并考虑数据在应用中的重要程度所得出的评价指标。 2.2准确性 . 准确性用来评价数据的正确性与精确度。准确性评价指标包括问题数据项个数、问题数 据个数、问题记录数、问题记录覆盖率、数据准确性、加权数据准确性等。 2.3一致性 一致性用于评价数据间应用的逻辑语义关系的满足程度。一致性评价指标包括问题数据 项个数、问题数据个数、问题记录数、问题记录覆盖率、数据一致性、加权数据一致性等。 2.4深度性 深度性用于测量实体或事件的历史量。深度性可用实际数据深度、期望数据深度和深度 性满足程度等指标来体现。 2.5及时性 及时性用来测量一个记录数据的发生时间到入库时间的差距,也是一种数据潜伏性的体 现。及时性可用数据平均潜伏周期、目前潜伏记录数、及时性满足程度等指标来体现。 2.6冗余性 冗余性是对不必要的重复信息的量化测评。冗余性可用冗余数据项个数、结构冗余度、 冗余记录数和冗余度等量化指标来体现。 3数据质量控制标准模型 数据质量控制标准是评估所评估实体对象的数据质量的标准,这些标准是数据质量控制 体系的重要组成部分,应在数据库设计阶段完成,在数据库建设实施过程中遵循。如果违反 了这些数据质量控制标准,则视为存在数据质量问题,而数据质量问题的类型和数量,直接

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档