[计算机硬件及网络]3、数据仓库和数据挖掘的OLAP技术.pptVIP

[计算机硬件及网络]3、数据仓库和数据挖掘的OLAP技术.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[计算机硬件及网络]3、数据仓库和数据挖掘的OLAP技术

数据仓库与OLAP技术概述 数据仓库-数据挖掘的有效平台 数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤 数据仓库提供OLAP工具,可用于不同粒度的数据分析 很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现 分类 预测 关联 聚集 什么是数据仓库? 数据仓库的定义很多,但很难给出一种严格的定义 它是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。 它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。 数据仓库区别于其他数据存储系统 “数据仓库是一个面向主题的、集成的、时变的、非 易失的数据集合,支持管理部门的决策过程.”—W. H. Inmon 数据仓库关键特征一——面向主题 面向主题,是数据仓库显著区别于关系数据库系统的一个特征 围绕一些主题来组织,如顾客、供应商、产品等 关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。 排除对于决策支持过程无用的数据,提供特定主题的简明视图。 数据仓库关键特征二——数据集成 一个数据仓库是通过集成多个异构数据源来构造的 关系数据库,一般文件,联机事务记录。 使用数据清理和数据集成技术 确保命名约定、编码结构、属性度量等的一致性。 当数据被移到数据仓库时,它们要经过转化。 数据仓库关键特征三——随时间而变化 数据仓库是从历史的角度提供信息 数据仓库的时间范围比操作数据库系统要长的多。 操作数据库系统: 主要保存当前数据。 数据仓库:从历史的角度提供信息(比如过去 5-10 年) 数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。 数据仓库关键特征四——数据不易丢失 尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的。 操作数据库的更新操作不会出现在数据仓库环境下。 不需要事务处理、恢复、并发控制机制。 只需要两种数据访问操作: 数据的初始装入和数据访问(读操作) 数据仓库与异构数据库集成 异构数据库的集成方法 传统的异构数据库集成:(查询驱动) 在多个异构数据库上建立包装程序(wrappers)和中介程序(mediators )。 查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异构数据库上的查询;然后,将这些查询映射和发送到局部查询处理器。 数据仓库: (更新驱动) 将来自多个异构源的信息预先集成,并存储在数据仓库中,供直接查询和分析。 操作数据库系统与数据仓库的区别 操作数据库系统的主要任务是联机事务处理OLTP 完成组织机构的日常操作:购买、库存、银行、制造、工资、注册、记帐等。 数据仓库的主要任务是联机分析处理OLAP 提供数据分析和决策支持:用不同的格式组织和提供数据,以满足不同用户的各种需求。 OLTP VS. OLAP (1) 用户和系统的面向性 面向顾客(事务) VS. 面向市场(分析) 数据内容 当前的、详细的数据 VS. 历史的、汇总的数据 数据库设计 实体-联系模型(ER)和面向应用的数据库设计 VS. 星形/雪花模型和面向主题的数据库设计 OLTP VS. OLAP(2) 数据视图 当前的、企业内部的数据 VS. 经过演化的、集成的数据 访问模式 事务操作 VS. 只读查询(但很多是复杂的查询) 任务单位 简短的事务 VS. 复杂的查询 访问数据量 数十个 VS. 数百万个 OLTP VS. OLAP(3) 用户数 数千个 VS. 数百个 数据库规模 100M-数GB VS. 100GB-数TB 设计优先性 高性能、高可用性 VS. 高灵活性、端点用户自治 度量 事务吞吐量 VS. 查询吞吐量、响应时间 为什么需要一个分离的数据仓库? 提高两个系统的性能 DBMS是为OLTP而设计的:存储方式,索引, 并发控制, 恢复 数据仓库是为OLAP而设计:复杂的 OLAP查询, 多维视图,汇总 不同的功能和不同的数据 历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护 数据汇总:决策支持需要将来自异构源的数据统一(如聚集和汇总) 数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将它们转化后进行集成 多维数据模型 (1) 数据仓库和OLAP工具基于多维数据模型 在多维数据模型中,数据以数据立方体(data cube)的形式存在 数据立方体允许从多维对数据进行建模和观察。它由维和事实定义。 维是关于一个组织想要记录的视角或实体。每个维都有一个表与之相关联,称为维表,它进一步描述维。 事实指的是一些数值度量 多维数据模型围绕中心主题组织,该主题用事实表表示 事实表包括事实的名称或度量以及每个相关维表的关键字(码) 多维数据模型

您可能关注的文档

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档