- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据质量和数据清理在电信数据仓库中的应用
数据质量和数据清理在电信数据仓库中的应用 Data Quality, Data Cleaning and Applying to Telecom Data Warehouse 关键词:数据仓库;数据质量;数据清理;ETL;构件 Keywords: Data Warehouse; Data Quality; Data Cleaning; ETL; Component 摘要:在研究数据质量问题相关理论的基础上,面对电信企业高质量数据需求,设计了面向电信应用的数据质量控制体系,接着,详细介绍了包含概念定义层、逻辑规范层和物理实现层三层的数据清理框架,最后描述了采用基于构件的设计模式,实现的以数据清理为主要功能的数据加载(ETL)系统。目前该系统已经应用于某电信运营企业数据仓库项目中,效果显著。 Abstract: Based on the research of the theories related to data quality problems, and for the requirements of high level data quality to telecom enterprises, a data quality control architecture oriented telecom applications is designed. A data cleaning framework with three tiers, such as notion defined tier, logic normalized tier and physical implemented tier, is discussed. An ETL system for the purpose of data cleaning is implemented by using design pattern based on component. The system is in used by a telecom enterprise, and worked well now. 1 引言 当今企业已建设或正在建设数据仓库系统以辅助决策,提高其核心竞争力,这需要将长期积累的大量反映各种业务环境的数据,按照相应主题从同构或异构平台,通过一定的ETL方法和过程将它们进行抽取、过滤、清洗、转换,然后加载到中央数据仓库中进行整合,形成完整的企业业务视图。(Extraction, Transformation, Loading)即数据抽取、转换和加载,是数据仓库实现过程中,将数据由数据源系统向数据仓库加载的主要过程。 现实世界中的数据源极易受空缺、不一致和噪声数据的侵扰。根据GIGO(garbage in garbage out)(data cleaning,data cleansing或者data scrubbing)在文献[2]中被定义为:发现和清除数据中的错误和不一致来提高数据的质量。在数据仓库环境下,数据清理是ETL 过程的一个重要部分,要考虑数据仓库的集成性与面向主题的需要。 数据清理目的是检测数据中存在的错误和不一致,剔除或者改正它们,这样就提高了数据的质量[2]。业务系统数据清理是提升业务系统数据质量的有效手段,是数据质量的源头,是整个数据仓库项目成功的关键。数据清理工作一方面能有效提升业务系统的数据质量和系统可用性,另一方面也能有效降低整个数据仓库ETL的复杂度和工作量,保证数据仓库中的数据质量。[3] 中数据质量定义为:数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)在信息系统中得到满足的程度。文献[4]认为:存在数据质量指示器和数据质量参数两类数据质量衡量指标,用户应根据应用的需求选择其中一部分,在此基础上提出了数据工程中数据质量的需求分析和模型。依据文献,结合电信运营企业的特点,对于数据质量,可以从以下四个方面来定义: 完整性(Completeness),数据是否按规则填写完整; 正确性(Correctness),数据是否满足域定义和业务逻辑要求; 一致性(Consistency),不同系统之间关联的数据在定义、含义、取值及操作等方面是否一致; 当前性(Currency),数据是否能够反应当前状态。 以上四个方面,我们称之为4C。高质量的数据应该是完整的、正确的、一致的、当前的。 2.2 数据质量问题的分类 文献[2] 根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层,将数据质量问题分为4类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。文献[5]根据用户角色的不同将数据仓库质量分为四类:设
您可能关注的文档
最近下载
- 部编版小学道德与法治四年级上册教案(全册)(最全).doc
- ISO90012015 ISO220002018 双体系内审检查表.xls VIP
- 钢支撑、钢拉条.docx VIP
- 雅马哈R3使用说明书.pdf VIP
- 灵活用工模式下的招聘战略.pptx VIP
- ISO220002018食品安全管理体系内审检查表.pdf VIP
- 四川建筑职业技术学院高等数学(一)复习答案学生版.doc VIP
- 电商孵化园运营方案.pdf VIP
- 初中物理竞赛试题精选精编第07讲物态变化(含答案与解析).docx VIP
- ISO22000-2018 食品安全管理体系 食品链中各类组织的要求(可编辑可复制).docx VIP
文档评论(0)