- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据质量评价模型建立和实现
数据质量评价模型建立和实现
[摘 要] 本文提出了数据质量评价模型、质量校验与评价方法,论述了“数据质量分析评价系统”的程序实现流程、总体结构及功能,介绍了系统的关键技术及进一步的研究方向。
[关键词] 质量模型 质量检验 质量评价
数据作为一种资源,是支撑信息化建设和应用的主体,根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求我们所管理的数据可靠,没有错误,能够准确地反映采油厂的实际情况。胜利采油厂数据中心存放了5千万条的数据,还在以每天2万条的速度加载,如何使这些海量数据在生产管理、科学研究、企业决策中发挥应有作用,使用户能用、敢用、愿用,使数据真正为企业服务,这是几乎所有信息化企业亟需迫切解决的问题。为解决数据质量问题,各种管理手段、技术手段和新的数据评价体系不断被应用在数据的采集和加工过程中。
一、数据质量评价模型的提出背景
采油厂的数据资源具有:横跨专业多,数据采集密度大、频度高,数据处理流程复杂等特点,为了保证数据的可用性,数据管理人员在客户端、服务器端均设置了数据质量审核规则,但是依然不可避免存在比例较高的数据质量问题,典型的有记录不全、数据遗漏、数据错误、多义字段、矛盾值、违背业务规则、无法关联等。产生数据问题的根本原因可以归结为以下几个方面:
1.没有从数据资源的战略高度对数据质量进行统一完整的定义,导致数据的分析评估没有统一可靠的标准;
2.数据质量还停留在定性评价,不能实现精确的量化评价,只是在业务需要某个数据时,才到库里去手动统计,无法动态记录某个单位、某个月的真实数据质量发生情况,导致数据质量考核缺乏可信的数据依据,大大影响考核力度;
3.没有一个能同时面对用户、专业部门、数据管理人员的可视化的数据质量监控评价平台,三方无法共享一个平台,共同实行数据管控一体化,导致业务规则的变更滞后,问题数据在库中的长期滞留;
4.也许有了N个业务模型,但是没有把它放到时间轴上去控制流程,导致实际生产中应该发生的活动的部分生产数据遗漏;
虽然影响采油厂数据质量的原因是多方面的,但主要的原因还是集中在管理、制度和数据采集加工规范化方面。对于如何通过管理、制度、标准和流程来控制数据质量,提高数据可信度,我们提出建立采油厂统一的数据质量分析评价模型,使用管理手段和技术手段相结合的办法,建立一套完善的数据定义、控制、评估流程,依托科学严谨的数据监督和质量控制体系持续地改进数据质量。
二、数据质量分析评价模型构成
构成数据质量分析评估模型的要素分别为:基础模型、数据质量辅助模型、数据质量定义模型、数据质量控制模型、数据质量评价模型。
1.基础模型。基础模型部分是整个模型框架的支撑核心部分,其他质量模型的定义和控制必须以基础模型中的计划和标准为依据。基础模型主要是映射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范。
数据标准:分两部分,一部分是直接映射应用中的标准,例如源数据库标准;另一部分是针对新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准(例如是取英文还是汉语拼音,取几个字符)、值域定义标准等等新增表准的建立规范;
采集计划:采集单位的每月上载的日度、月度、年度的采集计划;
约束规则定义规范:主要描述质量定义模型中的语法构成;
控制规则定义规范:针对服务器负载和采集表的及时性要求建立的后台执行过程的控制方式的使用说明;
2.数据质量定义模型。数据质量定义模型的建立实现了以基础模型为前提对数据质量的统一规范的定义,是数据质量分析评价的依据和基础。数据质量定义模型可以使用质量特性描述。数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性。
(1)数据的一致性。数据一致性,包括源系统之间同一数据是否一致,源数据与抽取的数据是否一致,数据中心内部各处理环节数据是否一致等。例如:单井基础信息、油井日数据中的单元代码应该和本年度的单元代码表保持一致;05应用库中抽取的数据项要与源头库保持一致等等。
一致性的量化评价指标:字段一致率、表间字段一致率、表间记录一致率。
(2)数据的准确性。数据准确性,包括数据源是否准确、数据值域是否符合业务规则和客观事实、编码映射关系是否准确、处理逻辑是否准确等。例如:作业日记的数据应该来源于作业队而不是采油队;一天的生产时间最大不可能超过24小时;水井干线压力要介于0~40兆帕之间。
准确性的量化评价指标:准确率、差错率、问题字段个数、问题记录覆盖率
(3)数据的及时性。数据及时性,包括数据处理(获取、整理、加载等)的及时性,数据异常
您可能关注的文档
最近下载
- 福建省漳州第一中学(西湖校区)2024-2025学年高一下学期第一次阶段考试生物学试题(含答案).pdf VIP
- 心血管-肾脏-代谢综合征患者的综合管理中国专家共识(2025)解读PPT课件.pptx VIP
- YD∕T 5066-2017 -光缆线路自动监测系统工程设计规范.pdf VIP
- (高清版)B-T 17671-2021 水泥胶砂强度检验方法(ISO法).pdf VIP
- 骨科手术切口感染的预防与控制.pptx
- 人教版初一上册《化学》模拟考试卷及答案【可打印】.docx VIP
- 《宴席设计实务》(肖炜)教案 第6课 为西式宴席设计酒水.docx VIP
- 塔吊驾驶员安全培训试题及答案.doc VIP
- ASME BPVC-VII-2017 锅炉及压力容器规范 第七卷:动力锅炉维护推荐指南 国外国际标准.pdf VIP
- GB_T 17671-2021水泥胶砂强度检验方法(ISO法).docx VIP
文档评论(0)