- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(一)数据质量的衡量标准、好处和问题?
??????????数据质量的好坏是决定一个数据仓库成功的关键,但是需要从那些方面衡量数据仓库中数据的质量呢??可以从下列方面衡量系统中的数据质量:
????????准确性:存储在系统中的关于一个数据元素的值是这个数据元素的正确值;
???????域完整性:一个属性的数值在合理且预定义的范围之内;
???????数据类型:一个数据属性的值通常是根据这个属性所定义的数据类型来存储的;
??????一致性:一个数据字段的形式和内容在多个源系统之间是相同的。
???????冗余性:相同的数据在一个系统中不能存储在超过一个地方;
???????完整性:系统中的属性不应该有缺失的值;
???????重复性:完全解决一个系统中记录的重复性的问题;
???????结构明确:在数据项的结构可以分成不同部分的任何地方,这个数据项都必须包含定义好的结构;
???????数据异常:一个字段必须根据预先定义的目的来使用;
???????清晰:一个数据元素必须有正确的定义,也就是需要一个正确的命名;
???????时效性:用户决定了数据的时效性;
???????有用性:数据仓库中的每一个数据元素必须满足用户的一些需求;
??????符合数据完整性的规则:源系统中的关系数据库中存储的数据必须符合实体完整性及参考完整性规则。
既然数据质量是成功的关键,那么,提高数据质量有那些好处:
????????对实时信息的分析:高质量的数据提供及时的信息,是为用户创造的一个重要益处;
????????更好的客户服务:完整而准确的信息能够大大提高客户服务的质量;
??????更多的机会:数据仓库中的高质量数据是一个巨大的市场机会,它给产品和部门之间的交叉销售打开了机会的大门;
??????减少成本和风险:如果数据质量不好,明显的风险就是战略决策可能会导致灾难性的后果。
???????提高生产率:用户可以从真个企业的角度来看待数据仓库的信息,而全面的信息促使流程和真个操作更顺畅,
???????????????????????????????从而提高生长率;
??????可靠的战略决策制定:如果数据仓库的数据是可靠而高质量的,那么基于这些信息进行的决策就是好的决策。
在数据处理过程中,会有那些数据质量问题:
?????????字段中的虚假值
?????????数据值缺失
????????对字段的非正规使用
????????晦涩的值
????????互相冲突的值
???????违反商业规则
???????主键重用
???????标志不唯一
???????不一致的值
???????不正确的值
????????一个字段多种用途
???????规范不一致地数据;
???????改善不同数据源中数据地合并过程;
???????对属于同一个家庭地客户记录进行分群和关联;
???????提供数据质量地衡量指标;
???????使允许地数值生效。
?
(四)确保数据质量
????????为保证数据仓库数据地质量,需要对数据进行清洗,有两种清洗方法:一种是只让干净地数据进入数据仓库;而是在需要地时候清洗。
进行数据清洗决策需要解决地基本问题:
???????需要清洗那些数据:需要由用户决定那些数据是重要地必须清洗,IT专家只起辅助作用;
???????在什么地方清洗:
???????怎样清洗数据:这就是怎样使用供应商地工具,如果工具不能满足则要自己编写代码;
???????如何查明数据污染的程度:这个需要操作型系统、数据仓库潜在用户以及IT人员共同参与地工作;
???????建立一个数据质量框架:框架将指导数据质量地工作。
您可能关注的文档
最近下载
- 山西无缝钢管生产项目投资分析报告.docx
- 考研真题 浙江财经大学431金融学综合[专业硕士]历年考研真题汇编(含部分答案).docx VIP
- 成人患者营养不良诊断与应用指南(2025版)解读PPT课件.pptx VIP
- 中国核材料项目投资计划书.docx
- 一种车载输出复位保持电路及汽车.pdf VIP
- 利雅路燃气燃烧器RS34 44 中文说明书.pdf VIP
- 2024事业单位工勤技能考试考试综合练习及参考答案详解(培优).docx
- 2025年金矿废渣回收利用融资投资立项项目可行性研究报告(非常详细).docx
- 场渗滤液处理站升融资投资立项项目可行性研究报告(非常详细).docx
- 2025年塑料薄膜制造市场需求分析.docx
文档评论(0)