第五章 数据采集与管理高级技术.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 数据采集与管理高级技术 常规学习时间:2 周 知识目标: 1 理解数据预处理技术 2 理解数据存储方式及表现形式 3 理解数据管理技术 能力目标: 能对采集到的数据进行简单的预处理,并选择合适的存储及管理方式。 对应教材章节:无 学习指导: 数据的预处理主要包括将数据从来源端经过抽取(extract )、转换(transform )、 加载(load )至目标端的过程,简称ETL 。ETL 一词较常用在数据仓库,但其对 象并不限于数据仓库。 企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心 竞争力的主要瓶颈。而ETL 则是主要的一个技术手段。 数据质量 数据质量具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个 特性。 1、质量表现 数据质量表现具体如下: 序号 质量表现 描述 1 正确性(Accuracy ) 数据是否正确的表示了现实或可证实的来源 2 完整性(Integrity) 数据之间的参照完整性是否存在或一致 3 一致性(Consistency ) 数据是否被一致的定义或理解 4 完备性(Completeness ) 所有需要的数据都存在吗 5 有效性(Validity ) 数据是否在企业定义的可接受的范围之内 6 时效性(Timeliness ) 数据在需要的时侯是有效的吗 7 可获取性(Accessibility ) 数据是否易于获取、易于理解和易于使用 2 、影响因素 而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括: 1) 数据的时间差异性问题 在抽取旧有数据时,要将不同时期的数据定义统一,较早的数据不够完整或不 符合新系统的数据规范,一般可以根据规则,在存入中转区的过程中予以更新或补 充。 2) 数据的平台多样性问题 在抽取旧有数据时,大部分数据都可采用表复制方式直接导入数据中转区集中, 再做处理,但有部分数据可能需要转换成文本文件或使用第三方工具如 Informatica 等装载入数据中转区。这部分数据主要是与数据中转区数据库平台不一 致的数据库数据,或非存储于数据库内的文本、excel 等数据。 3) 数据的不稳定性问题 对于重要信息的完整历史变更记录,在抽取时可以根据各时期的历史信息,在 抽取需要信息等基本属性的旧有数据时,要与相应时段的信息关联得到真实的历史 属性。 4) 数据的依赖性问题 旧有业务系统的数据关联一般已有约束保证,代码表和参照表等数据也比较准 确,但仍有少量数据不完整,对这部分数据,需根据地税的需求采取清洗策略,保 证数据仓库各事实表和维表之间的关联完整有效。 数据仓库各事实表和维表的初始装载顺序有先后关系,要有一个集中的数据装 载任务顺序方案,确保初始数据装载的准确。这可以通过操作系统或第三方工具的 任务调度机制来保证。 3、质量要求 数据质量要求包括格式、完整性要求等: 质量要求 描述 对数据模型的不同版本融合、映射为唯一版本。包括: 业务描述统一 1、在业务逻辑没有变化的前提下,旧的业务数据映射在新 模型上; 2、遗留系统的人事信息、考核相关信息与业务系统、行政 其他模块要一致。 不存在格式违规:数据类型不存在潜在错误。 参照完整性未被破坏:数据不会找不到参照。 信息描述规范、 不存在交叉系统匹配违规,数据被很好集成;

文档评论(0)

153****1683 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档