数据时效性判定-关键理论和技术.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据时效性判定-关键理论和技术.doc

  数据时效性判定:关键理论和技术 摘要: 当前,随着大数据时代的来临,数据质量问题受到越来越多的关注。数据质量会随着时间的流逝迅速下降,因此在数据质量的各个维度中,数据时效性扮演的角色至关重要。判定一个给定的数据集合的时效性是确保数据时效性是第一步,但数据时效性的判定并非易事,其面临极大挑战。本文针对时效性判定问题面临的各个挑战,综述了当前该领域针对绝对时效性判定和相对时效性判定的关键理论和技术,分析了现有的各方法的优缺点,并对未来的研究方向给出了建议。 中国 8/vie   关键词:数据质量; 数据时效性; 时效性判定   中图分类号: TP391.41   文献标志码:A   : 2095-2163(2016)06-0072-04   0引言   随着大数据时代的到来,数据的“量”在飞速增长,但与此同时,数据的“质”的下降也成为了不可忽视的问题。多家机构的统计数据表明,当前各行各业中信息的可用性(即数据质量)问题亟待解决。在美国,企业中有1%~30%的数据存在各种质量问题[1],医疗中有13.6%~81%的组成是不完整、或过时数据[2]。同时,根据国际著名科技咨询机构Gartner的调查结果,即使是在那些著名企业,如全球财富1 000强的企业中,也有超过25%的企业其信息系统中的关键信息不正确或不准确[3]。如果不能够及时有效地针对这些数据质量问题提供全面完整解决,就必将会对国民生活和企业决策形成不可预知的恶劣影响。事实上,已有多次调查结果陆续表明,如上的数据质量问题每年都会在全球范围内造成重大不良效应后果:数据质量问题在美国引发的医疗事故所导致的死亡人数高达98 000名,约等于总医疗事故致死人数的一半[4];数据过时和错误将使得美国工业企业损失高达6 110亿美元,这一数值几乎可占美国GDP的6%[5];标价错误还会导致美国零售业损失25亿美元[6];数据中的不一致错误则会导致信用卡欺诈??题的深度隐藏,这在2006年曾造成48亿美元的财产损失[7]。由此,根据推算,劣质数据的处理需要花费30%~80%的开发时间和预算[8],进而数据质量问题通常给企业增加获得同等产值约10%~20%的成本[9]。这也随即推动了数据质量工具市场的飞速增长,甚至远超IT行业的平均增长率[10]。劣质数据无时无刻都将通过网络在不同数据源之间传播,因此对数据可用性的研究已经成为数据管理领域中的首要问题内容之一。近几年来,数据库领域的顶级国际会议及期刊每年都会达成和开展多项关系着数据质量方面的相关议程和研究工作。   一般说来,要从下述5个维度来保证数据可用性[11]。现作如下论述:   1)时效性。保证数据与时俱进,不陈旧过时。例如,某数据库中的用户地址在2010年是正确的,但在2011年未必正确,即存在过时数据。   2) 一致性。保证数据不违背某些特定约束。例如,记录(邮编=“150000”,城市=“上海”)就违背了邮编和城市的对应关系,因为150000是哈尔滨的邮编、而非上海邮编。   3) 完整性。保证数据不存在缺失。例如,医疗数据库遗失某患者病史就会导致数据不完整,进而可能妨碍医生正确诊断病情。   4) 精确性。保证数据能够准确地描述对应实体。例如,哈尔滨全市总面积约为5.384万平方公里,但数据库中记录却为5万平方公里,这虽在宏观来看是合理的,但不精确。精确性和一致性并不相同,一致的信息也可能含有误差,即未必精确。   5) 实体同一性。保证描述同一实体的数据在不同数据源上是统一的。例如,可以通过对比个人信息来判断信用卡的使用者和持有者是否为同一人,从而防止欺诈。   在数据可用性的5个维度中,数据时效性的作用地位至关重要。据统计,在商业和医疗信息数据库中,约有2%的客户信息会在一个月内变得陈旧失效[5],如果这些数据未获修复,那么在2年内,就将有近50%的记录会因为过时而使其可用性受到影响,而过时数据将会导致严重后果。在企业决策时,企业往往会因为使用了陈旧的数据而做出错误的决策,而在日常生活中,银行可能会将信用卡账单寄送到持有人搬家前的旧地址。同时,有相当一部分数据的不一致、不精确、不完整等都是由数据过时失效引起的。例如,银行未能及时更新客户的地址信息将会导致同一客户的住址和邮编难以匹配;随着人口的增长和流动,数据库中各城市的人口数会因为过时变得不再精确;新入学的学生的学籍信息未及时录入会导致记录学生信息的数据库无法趋于完整。因此,确保数据的时效性已成为热点与焦点。   判定一个给定的数据集合的时效性是确保数据时效性的第一步。只是数据时效性的判定却并非易事。同一记录的不同属性随时间变化的频率不同,使得同一记录的不同属性的新旧程度也会不同,这即使得数据时效性判定问题的研究面临严峻挑战。首先,数据库中

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档