- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据质量治理系统规划建设方案V2.8 PAGE31 / NUMPAGES32 大数据质量治理系统规划建设方案V2.8 大数据质量治理系统规划建设方案 目录 TOC \o 1-3 \h \z \u 第一章 数据质量管理概述 3 1.1 数据质量管理定义 3 1.2 数据质量管理评价标准 3 1.3 数据管理成熟度 4 1.4 数据质量问题分类 4 第二章 数据质量问题的原因与实施方法 6 2.1 数据质量问题的原因分析 6 2.2 数据质量管理的意义 7 第三章 数据清洗 9 3.1 数据清洗加工原则 9 3.2 数据清洗质量评估要求 9 3.3 数据清洗角色定义 10 3.4 数据清洗的方法 11 3.4.1 数据预处理 12 3.4.2 数据清洗 14 第四章 数据质量管理系统 20 4.1 系统定位 20 4.2 系统价值 20 4.3 系统架构 20 4.3.1 逻辑架构 20 4.3.2 技术架构 21 4.3.3 功能架构 21 4.4 主要功能模块 22 4.4.1 数据质量定义模块 22 4.4.2 质量检查任务调度模块 25 4.4.3 检查结果采集模块 27 4.4.4 质量问题分析模块 27 4.4.5 系统配置管理模块 29 第五章 名词解释 30 第六章 参考资料 31 数据质量管理概述 数据质量管理定义 数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。 DAMA(国际数据管理协会)中对数据质量管理的阐述如下:数据质量预期为定义数据质量框架提供必要的输入。此框架包括定义需求、定义检查策略、定义度量和定义反映数据质量和绩效变化的监控措施。这些需求反映了业务数据预期的3个方面:以一种方式将数据预期记录在业务规则中,以一种方式在该维度上度量数据质量,以及一个可接受度的阈值。 数据质量管理评价标准 数据质量度量的规则有很多,一般常用的如下: 一致性:一致性是指统一数据来源、统一存储和统一数据口径,确保一个数据集的数值和另一个数据集的数值一致,一致性主要考察的是业务约束检查; 有效性:有效性是指数据实例的存储、交换或针线的格式是否与数据值域一致,是否与其他相似的属性值一致,有效性确保了数据值遵循与数据元素的多个属性:数据类型、精度、格式、预定义枚举值、值域范围及存储格式等,有效性主要考察的非法值检查,数据格式校验; 准确性:准确性是指数据准确反映其所建模的“真实世界”实体的程度,通过度量数据值与一个已确定的正确信息参照源的一致性来衡量其准确性。准确性主要考察码值校验; 完整性:完整性是指一个数据集的特定属性都被赋予了数值或者一个数据集的全部行记录都存在。包括实体不缺失、属性不缺失、记录不缺失和字段值不缺失四个方面完整性,主要考察空值校验、记录数校验等; 合理性:合理性指按用户实际情形进行校验规则扩展; 唯一性:唯一性主要体现在一个数据集中,没有实体多余一次出现。满足实体唯一性,说明没有实体出现多余一次,并且每个唯一实体有一个键值,且该键值只指向该实体。唯一性主要用于主键重复检查、主外键校验、总分校验; 及时性:指数据刷新、修改和提取等操作的及时性和快速性,数据的采集和入库要满足业务发展和管理的时效性要求; 精确性:指计量误差、度量单位等方面的精确程度。 数据管理成熟度 数据质量成熟度模型分为四个等级,分别是初始级-定义级-管理级-优化级; 初始级:通过数据库进行数据管理; 定义级:通过模型管理进行数据管理; 管理级:通过元数据进行数据管理; 优化级:通过企业标准数据架构进行数据管理; 其中,初始级和定义级阶段,每个系统都是分离的数据管理,非标准的独立的数据管理,管理级和优化级阶段,采用企业集成数据管理和标准化元数据管理。 数据质量问题分类 数据质量主要针对单数据源数据和多数据源数据两方面,两种类型数据都由实例层数据和模式层数据组成。数据清洗技术是解决数据质量问题的一种有效方法,可以检测和修正实例层的脏数据。但是数据清洗技术无法全面地解决数据质量问题中模式层的脏数据,必须借助数据整合技术。 数据质量问题的原因与实施方法 数据质量问题的原因分析 数据质量的问题突出表现在:核心问题收入减少、成本增加、风险增高。分别从信息化标准建设、信息管理制度、数据管理流程、技术能力建设方面来看数据数据质量问题的原因: 1)信息问
有哪些信誉好的足球投注网站
文档评论(0)