数据仓库 BI 商业智能 交流.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库 BI 商业智能 交流

ETL处理机制 * 数据装载机制 3.全量/增量混合装载就是一部分数据用全量装载方式装载,一部分 数据用增量装载方式装载。目的是综合利用两种方式的优点,避免二者的缺 点。但是往往效果不如人意。因为任何一种装载方式的好与坏都是相对的, 不能用绝对的观点去看问题。所以这种装载方式如果做的不好可能反而是保 留了两种装载方式的缺点,而舍弃了优点。当然这是大家不愿意看到的结果 ,但是如果想要得到积极的效果,就要花大量的精力去设计ETL的存储策略 和处理流程,这就增加了系统的开发成本。 中银保险MIS系统,由于数据量比较大,总体原则采用增量加载的原则 。同时有些表数据量非常小,为了减少逻辑的复杂性和ETL开发量,因此这 部分表采用全量加载方式处理。 ETL处理机制 * 中间结果存放机制 ETL加工过程中产生的临时数据结果集的存放。 数据表存放方式有两种,其一是通过数据库表的形式保存,就是把数 据直接存放到数据库表中。然后通过数据库提供的SQL语句或嵌入式SQL程序 来完成数据的转换、加工过程,最终可以直接装载到业务追踪分析系统的数 据库表群中。另一种形式是通过文件的形式保存。 由于本系统使用存储过程,中间结果大部分需要进行数据关联再处理 操作,由于数据库本身对表的关联效率要比ETL通过文件关联的效率要高, 因此本系统采用数据库表的存储方式。 ETL处理机制 * 数据装载周期 数据装载周期就是数据多长时间需要重新装载,何时重新进行ETL处理 。一般分为日、周、月、季、半年、年及准实时〔按小时或分钟〕。 采取哪种数据装载周期主要与系统的最终使用目的息息相关。 第一类:数据仓库系统主要是用来进行数据展示的,要求数据的实时 性比较高,那么一般至少数据装载周期为每周一次,实际情况是一般都是每 天一次数据装载。 第二类:数据仓库系统主要是用来进行数据挖掘的,要求数据的实时 性非常低,那么一般采用的数据装载周期为月、季、半年,有的甚至是一年 进行一次数据装载。 ETL处理机制 * 数据装载周期 第三类:数据仓库系统用来进行准实时的查询,要求数据的实时性非 常高,那么一般以小时为单位做为数据装载的周期,具体要根据各种约束条 件以及用户的强制性需求决定。这种准实时的数据装载对资源的要求是非常 高的。 中银保险MIS系统,由于主要用来数据展示即时查询,同时大部分报表 需要按天进行展现,因此数据装载周期采用按天加载。 ETL设计 * ETL处理机制 ETL处理规则 程序开发规则 数据质量规则 任务调度规则 ETL实施步骤 ETL监控 ETL处理规则 * 程序开发规则 1.保证程序的原子性,也就是说每个程序都要可以重复执行; 2.保证Log信息的清晰性,可通过页面监控; 3.保证正确性的同时尽量考虑程序的执行效率; 4.保证尽量使用数据库本身的优点。 ETL处理规则 * 数据质量规则 1.清洗后文本数据尽量不包含非法字符,例如空格、*等; 2.保证数据字典项的编码统一; 3.进行必要的空值替换; 4.根据业务要求转换数据; 5.减少ETL过程中的人工干预,尽量保证数据自动装入系统; 6.能够对不符合数据质量规则的数据进行追踪。 ETL处理规则 * 任务调度规则 1.保证ETL调度逻辑清晰,在效率允许的前提下,尽量将从源系统到数 据缓冲区层数据抽取、数据缓冲区层到基础层数据清洗与转换、基础层到集 市层的数据汇总、及应用数据文件形成的各个部分在调度上完全依赖。这样 可以降低调度的复杂性便于系统的维护; 2.最小可执行单元,尽量保证所处理的数据逻辑的独立性,即当发生 错误时,可以单独进行处理; ETL处理规则 * 任务调度规则 3.加工同一张表的数据的任务尽可能串行,不并行; 4.父任务和子任务的关系一定要合理,确定它们存在互相依赖关系; 5.任务执行线路的划分要合理,不要出现执行瓶颈,也就是说尽可能 保证系统资源的合理利用。 ETL设计 * ETL处理机制 ETL处理规则 ETL实施步骤 1.数据质量探查及处理 2.数据映射 3.确定变更历史的保存 4.确定数据抽取时机

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档