华南理工大学数据挖掘第三章.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华南理工大学数据挖掘第三章

第三章 数据仓库与OLAP技术概述 什么是数据仓库? 作用:数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。 定义:数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合 ,支持管理部门的决策过程。 适用范围: 信息源中的数据变化稳定 或可预测应用不需要必威体育精装版的数据 或允许有延迟应用要求,有较高的查询性能,而降低精度要求 特点:面向主体、集成的、时变的、非易失的 技术要求: 大量数据的组织和管理 复杂分析的高性能体现 对提取出来的数据进行集成 对进行高层决策的最终用户的界面支持 数据仓库(事务处理)与操作数据库(分析处理)区别 联机事务处理(OLTP)和联机分析处理(OLAP)区别: 为什么需要分离的数据仓库: 分离操作数据库系统和数据仓库的主要原因是提高两个系统的性能.操作数据库系统是为已知的任务和负载设计的,而数据仓库的查询通常是复杂的,涉及大量数据在汇总级的计算,在操作数据库系统上处理OLAP查询,可能会大大降低操作任务的性能. 多维数据模型 基本概念: 维:透视或关于一个组织想要记录的实体 维表:每一个维都有一个表与之相关联 事实:数值度量 数据仓库建模模式: 星形模式:最常见的模型范例星形模式;其中数据仓库包括(1)一个大的、包含大批数据、不含冗余的中心表(事实表);(2)一组小的附属表(维表),每维一个。这种模式图很象星星爆发,维表围绕中心表显示在射线上。 雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。结果,模式图形成类似于雪花的形状。 事实星座:复杂的应用可能需要多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。 数据集市:数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。 概念分层:一个映射序列,将低层概念到更一般的高层概念。 多维数据模型的OLAP操作: 上卷操作,通过维规约,在数据立方体上进行聚集. 下钻操作,是上卷操作的逆操作,由不太详细的数据到更详细的数据. 切片和切块,切片在给定的数据立方体的一个维上进行选择,切块则是在两个或两个以上的维进行选择. 转轴操作,转动数据的视觉,是目视操作. 数据仓库系统结构 自顶向下视图:使我们可以选择数据仓库所需的相关信息. 数据源视图:揭示被操作数据库系统捕获存储和管理的信息. 数据仓库视图:包括事实表和维表. 商务查询视图:从最终用户的角度透视数据仓库中的数据. 三层结构: 底层数据仓库服务器,使用称作网间连接程序的应用程序,由操作数据库和外部数据源提取数据. 中间层是OLAP服务器,实现方法有 关系OLAP模型,在多维数据上的操作映射为标准的关系操作 多维OLAP模型,直接实现多维数据的操作 顶层是客户,它包括查询和报告工具,分析工具和数据挖掘工具(例如趋势分析,预测等) 数据仓库的类型: 企业仓库:企业仓库收集了关于主题的所有信息,跨越整个组织,它提供企业范围内的数据集成. 数据集市:包含企业范围数据的一个子集,对于特定的用户是有用的,其范围限于选定的主题. 虚拟仓库:是操作数据库上的视图集合.为了有效地处理查询,只有一些可能的汇总视图被物化,虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力. 数据仓库后端工具功能: 数据提取:通常由多个异构和外部数据源收集数据 数据清理:检测数据中的错误,可能时修订他们 数据变换:将数据由遗产或宿主格式转换成数据仓库格式 装入:排序、汇总、合并、计算视图、检查完整性,并建立索引和划分 刷新:传播由数据源到数据仓库的刷新 总结 ?? 数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。有一些因素区别数据仓库与操作数据库。由于两种系统提供相当不同的功能,需要不同类型的数据,有必要将数据仓库与操作数据库分开维护。 ?? 通常,多维数据模型用于数据仓库和数据集市的设计。这种模型采用星形模式、雪花模式或事实星座模式。多维数据模型的核心是数据方。数据方由大量事实(或度量)和许多维组成。维是一个组织想要记录的实体或透视,是自然分层的。 ?? 概念分层将属性或维的值组织成渐进的抽象层。概念分层对于多抽象层上的挖掘是有用的。 ?? 联机分析处理(OLAP)可以在使用多维数据模型的数据仓库或数据集市上进行。典型的OLAP操作包括上卷、下钻(钻过、钻透)、切片和切块、转轴(旋转),以及求等级、计算平均值和增长率等统计操作。使用数据方结构,OLAP 操作可以有效地实现。 ?? 数据仓库通常采用三层结构。底层是数据仓库服务器,通常是关系数据库系统。中间层是OLAP服务器。上层是客户,包括查询和报表工具。 ?? OLAP 服务器可以

文档评论(0)

qwd513620855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档