数据仓储与数据挖掘讲义 第1章 数据仓库概述.pptVIP

数据仓储与数据挖掘讲义 第1章 数据仓库概述.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓储与数据挖掘讲义 第1章 数据仓库概述

1.1 数据库到数据仓库的演变 操作型系统:使用人员通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,其目标是实现企业的业务运营; 分析型系统的使用人员通常是企业的中高层的管理者,或者是从事数据分析的工程师。分析型系统包含的信息而非具体的细节,其目的是为企业的决策者提供支持信息。操作型系统和分析型系统的划分如图1-4所示。 操作型处理和分析型处理的分离,划清了数据处理的分析型环境和操作型环境之间的界限,从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析系统。企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境,如图1-5所示。 1)数据仓库关键特征一 ——面向主题 围绕一些主题,如顾客、供应商、产品等 关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。 排除对于决策无用的数据,提供特定主题的简明视图。 2)数据仓库关键特征二 — 数据集成          一个数据仓库是通过集成多个异种数据源来构造的。 关系数据库,一般文件,联机事务处理记录 使用数据清理和数据集成技术。 确保命名约定(如单价与价格) 、编码结构(如域宽) 、属性度量(如 Hotel price )等的一致性。 当数据被移到数据仓库时,它们要经过转化。 3)数据仓库关键特征三——随时间而变化         数据仓库的时间范围比操作数据库系统要长的多。 操作数据库系统: 主要保存当前数据。 数据仓库:从历史的角度提供信息(比如过去 5-10 年) 数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。 4)数据仓库关键特征四——数据不易丢失          尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。 操作数据库的更新操作不会出现在数据仓库环境下。 不需要事务处理,恢复,和并发控制等机制 只需要两种数据访问: 数据的初始转载和数据访问(读操作) 1.4、数据仓库的数据组织 一、数据仓库概念模型 最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。 星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。 雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。 事实星座(Fact constellations): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座(fact constellation) 星型模式实例 雪花模式实例 事实星座模式实例 1.6 数据仓库的系统结构 1.6.1 数据仓库的三层结构 一、数据获取、管理层 数据仓库的定义与修改 数据获取 数据仓库系统的管理 二、数据存储层 数据仓库、数据集市 三、数据分析应用层 查询、统计、OLAP服务、数据挖掘服务 二、数据仓库的构造模式 自顶向下法(P30-P32) 自顶向下法:由总体设计和规划开始(成熟) 数据仓库—数据集市 数据仓库开发——一个推荐的方法 建立ODS实际上是建立了一个全局数据库,它通过在 ODS中的纪录系 统定义和参考表来建立一系列DB和ODS纪录间的双向联系,以实现数据在 企业级上的同步。 ODS的纪录系统就是说明如何从DB中向ODS进行数据抽取。有了ODS 纪录系统后, DB 中对应的数据项发生变化,都将反映到相应的 ODS 记录 中。 反过来,参考表建立的是从 ODS 数据项到 DB 数据项的反向映射。当 ODS中的记录发生变化时,将通过参考表去修改与之相关的DB中的所有数 据项,其过程如下图2-41,数据库A、B、C都存在相同含义的数据,数据库 A中的数据项发生变化后,通过ODS记录系统定义,反映到ODS中对应的 数据项,再通过参考表去更新数据库B和C。 通过记录系统定义和参考表,使得原先分散的数据库系统被紧密地结合起来,一点动,全局变。建立ODS后,当人事处完成了人员调动的手续后,这些变更信息通过ODS反映到企业的各个数据库中,调动的人员可直接到新单位报道,这样可以大大的缩短办理手续的时间其过程。如图1-44所示。 ( 2 ) 近期的OLTP DW主要用于解决企业长期战略问题

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档