- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据中心基础培训 - 企业门户系统交流
汇报内容 什么是数据中心 数据中心是企业的业务系统和数据资源进行集中、集成、共享、分析的场地、工具、流程等的有机组合。从应用层面看,包括业务系统、基于数据仓库的分析系统;从数据层面看,包括操作型数据和分析型数据以及数据与数据的集成/整合流程;从基础设施层面看,包括服务器、网络、存储和整体IT运行维护服务。 汇报内容 总体逻辑架构 总体逻辑架构 总体逻辑架构 总体逻辑架构 总体逻辑架构 总体逻辑架构 基于SOA架构的信息集成 汇报内容 ODS(操作型数据存储) 详细的业务系统源数据在被处理载入数据仓库前都将以符合三级范式的形式按照数据主题模型存储在ODS(即Operating Data Store,操作型数据存储)中。ODS按功能,分为数据缓冲区和共享数据区两个区域。 ODS缓冲区存储指数据库中的一段临时存储区,它存放由二级企业和三级企业提供的源数据。不同数据来源平台(包括WEB填报、报表上报)的业务源数据到达缓冲区后,实现源数据在数据库平台上的一致,方便进行数据整合和处理,同时如果数据字典发生修改后,不需要修改数据采集任务。 ODS是集团公司数据中心架构中重要的功能区域,除了作为数据在进入数据仓库区域前的缓冲区外,它集成了来自集团公司的各类业务数据,并通过对数据ETL形成一致的共享数据库,有利于最终用户更好地通观全局,这一区域被称作ODS的共享数据区。 数据仓库 数据仓库区是专门针对企业数据整合和数据历史存储需求而组织的集中化、一体化的数据存储区域。数据仓库由覆盖多个主题域的企业信息组成,这些信息主要是低级别、细粒度数据,同时可以根据数据分析需求建立一定粒度的汇总数据。它们按照一定频率定期更新,主要用于为数据集市提供整合后的、高质量的数据。数据仓库侧重于数据的存储和整合,通常采用轻量级索引。 数据仓库区内的数据按照主题存放,数据粒度与ODS共享区一致或粗于缓冲区,这些数据主要是企业级数据与历史信息,数据在线存储的周期一般较长。数据仓库区的数据是由ODS共享区的数据按照数据仓库模型的要求进行整合后形成的。 设计数据仓库模型时,需要考虑以下几点: 基于主题域 侧重于对企业范围内数据进行整合 明细数据与聚合数据共享 从技术而言是3NF模式 数据集市 数据集市是一组特定的、针对某个主题域、部门或用户分类的数据集合。这些数据需要针对用户的快速访问和数据输出进行优化,优化的方式可以通过对数据结构进行汇总和索引。通过数据集市可以保障数据仓库的高可用性、可扩展性和高性能。 数据集市最好采用迭代的方式进行开发,集市中的数据来自ODS区。 数据集市的数据不应从源数据系统直接抽取。因为,如果数据集市从源数据系统直接向数据集市提供数据则可能导致数据的不一致,也可能导致多个额外进程产生,这些进程在源系统中将占用额外的系统资源,进而造成资源上的浪费。 数据集市的建立可以采用两种形式:逻辑集市(视图方式)和物理集市。其中逻辑集市具有开发周期稍短,易扩展,节省存储空间的优点,其缺点是性能较低,而通过物理集市往往可以获得较高的性能,但其开发设计周期相对较长、扩展性低、对于存储空间要求较高。华能集团数据仓库数据量较大,所以采用物理集市的方法。 汇报内容 数据采集服务定义 下面对采集功能架构中的抽取、清洗、转换、加载、缓存点、源数据管理服务、性能与可用性服务、批处理服务等方面对数据采集功能框架中的关键服务进行阐述。 抽取 抽取步骤负责将数据中心所需的数据从各个业务系统数据源或统计报表中采集上来。华能集团数据中心的ODS区域中有数据缓冲区,由于指标数据项会发生变化,为了减轻抽取流程相对应改变的繁琐工作,抽取流程将数据从数据源抽取并通过统一的抽取接口传送给数据缓冲区,然后传送给数据抽取架构中的清洗与转换步骤。 清洗 清洗流程负责对数据进行清洗与确认,使之与数据仓库所要求的数据标准与质量相符合。数据清洗流程的设计可以划分为两类:一类是针对特定业务源系统编写的专用清洗程序,而另一类则是适用于各类业务源系统以及数据仓库内清洗需求的通用程序。由于从源系统抽取的数据都存在不同程度的不一致性,因此可以通过使用相关规则来检查和改善数据质量。 此外,由于很多业务源系统的清洗规则和处理流程基本相同,因此应该将关键的清洗功能设计为通用函数(通过变化参数来满足不同业务源系统的清洗需求)以提高其可重用性。 转换 转换步骤负责对源系统所抽出数据进行操作或放大。转换流程是数据在进入数据仓库前最后一次进行修改的环节。事实表的聚合以及关键绩效指标(KPI)的计算都在这一步完成。 加载 作为ETL流程的最后一步,加载流程负责将数据加载到最终数据结构中,这些结构可能是维度表,也可能是事实表或者事务表等。 汇报内容 数据访问功能 数据访问功能 华能集团企业门户数据中
文档评论(0)