数据质量分析与整合在高校信息系统的应用.docVIP

数据质量分析与整合在高校信息系统的应用.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据质量分析与整合在高校信息系统的应用.doc

数据质量分析与整合在高校信息系统的应用   摘要:信息系统的出现为高校管理提供了巨大的便捷,它也是数字化校园的一部分。随着时间的推移和系统之间存在的历史原因,海量数据的涌现引起了人们对数据质量和数据整合的思考。由于信息系统的使用效果直接与数据质量相关,而且不同的系统之间存在“信息孤岛”,导致数据不一致,无法达到信息共享。因此,需要对现有数据的质量进行分析,提出相关的基本概念;并以上海海洋大学数字化校园二期建设为例,展现高校信息系统的数据整合案例的实际应用。   关键词: 数据质量;数据整合;信息系统   中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)23-0051-02   1 概述   在数字校园的发展中,由于历史原因,各个信息系统之间存在着不同的开发技术、系统框架、信息标准。因此,建立一个高校综合服务平台尤(以下简称为“服务平台”)为重要,它能够对高校原有的信息系统进行充分数据整合,全方位地实现数字化校园建设,保障了高效有序的数据、服务、认证等多方面的管理。然而,在建设服务平台之前,需要对数据质量进行分析,将数据质量分析与数据整合有机地结合起来。同时,本文以上海海洋大学为例提出现有的数据整合应用方案。   2 数据质量分析   数据质量分析包括:1)数据质量的定义;2)域分析与过滤器分析;3)基于数据仓库的ETL分析。   2.1 数据质量的定义   数据质量在不同行业与组织中具有不同的定义,但总体可以用以下的6个性质来描述,并结合相关例子阐述。   正确性:反应数据呈现客观世界的程度,取值应该在对应的数据域中。例如,有关博士、硕士学位专业代码必须符合教育部标准代码子集。   准确性:在正确性的基础上,准确性反应数据与客观世界的匹配程度;需要注意的是,正确的数据未必准确。例如,在教职工聘任职务标准代码对应字典表中011代表教授,012代表副教授;若将一名副教授对应为011就不准确了,但代码011本身是正确的。   完整性:在一定范围内,根据特定的需求和相关的数据,保证数据集中的数据既不缺少应有的部分也不增加多余的部分。例如,公共数据库中的数据应排除非法数值的存在和尽量减少非空数值的出现。前者的例子有学历信息应为本科,而不是大学,后者空值的出现会带来统计与决策支持上的不便。   及时性:表示数据在一定时间内的时效性,不同的数据有着不同的时间有效性。例如,一个系统在长期运行下,数据库会产生废弃表,留下冗余和无效数据。此时,应对这些表进行连续监测,通过数据量的变化来排查,排除变化量小的字典表和变化量大的表,剩余的就是过了时效性的废弃表。   一致性:表示在数据集中的特定规则表达是否相同的衡量依据。例如,在数据库中用“M”表示男性、“F”表示女性,在其他表中是否会以“男”表示男性、“女”表示女性。   集成性:在传统的高校信息系统中,早期的数字化校园在人事、教务、财务、学生管理等多个方面建设,但这导致了数据分散存储和处理,使得各个系统中数据库表的对应字段没有相应联系,主键不匹配甚至没有键码,这也是后期数据整合要解决的问题。   2.2 域分析与过滤器分析   域分析和过滤器分析对数据质量的保证体现在对“脏数据”的清洗,数据清洗这一环节又是属于数据仓库的ETL技术。这两种分析对控制数据质量起着很大的作用,它们是从数据质量定义的基础上,通过对数据库的结构进行的另一种数据质量分析的方法。   域分析的功能是通过列来分析数据库表,包括:1)数据类别分析,涉及标示量、枚举量、时间、文本等;2)统计分析,涉及频率、方差、百分比等针对数值类型的相关分析;3)格式分析,主要涉及模式匹配的针对字符类型的相关分析。域分析可以使数据环境得到充分的了解,以便数据质量的有效管理与评估。   过滤器分析主要是通过对不同规则的组合进行分析评价。过滤器的基本规则有三类:一是包含规则(CONTAINS);二是等于规则(EQUALS);三是存在规则(EXISTS)。除此之外,过滤器定义的规则还有范围规则、正则表达式规则、频率规则、类型规则以及唯一规则等。分析评价包括符合规则的记录数、规则明细、总记录数以及正确率等。   2.3 基于数据仓库的ETL分析   在每一个信息系统的背后都有相应的数据库系统,另外与数据库系统相关的一个概念就是数据仓库。数据仓库是基于数据库技术的,它是支持管理决策过程的、面向主题的、集成的、随时间变化的持久的数据集合,它是研究如何将大规模复杂的数据更有效得组织、用于方便使用的技术。   在数据装入数据仓库之前,要进行一系列操作来保证数据质量,这个操作就称为ETL,即有关数据的抽取(Extract)、转换(Transform)、装载(Load)。在此之前进行数

文档评论(0)

lmother_lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档