数据仓库与数据挖掘原理及应用教学课件.ppt

数据仓库与数据挖掘原理及应用教学课件.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 原理及应用 东华理工大学 理学院 刘爱华 目录 数据仓库基础 7. 分类和预测 数据仓库设计和实现 8. 关联分析 数据仓库实例 9. Web挖掘 OLAP和OLAM 10. 数据挖掘实例 5 . 数据挖掘基础 11. 知识 聚类分析 12. 语义网和本体 1 数据仓库基础 1.1 引言 1.2 体系结构 1.3 组成 1.4 元数据 1.5 数据粒度 1.6 数据模型 1.7 ETL 1.1 引言 数据仓库定义 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。 此定义由最为权威的、被称为“数据仓库之父”的William H. Inmon 先生给出。 1.1 引言 面向主题的 是相对于传统数据库的面向应用而言的。所谓面向应用,指的是系统实现过程中主要围绕着一些应用或功能。而面向主题则考虑一个个的问题域,对问题域涉及到的数据和分析数据所采用的功能给予同样的重视。 典型的主题领域 顾客、产品、事务或活动、保险单、索赔和账目。 1.1 引言 集成的 数据仓库中的数据来自各个不同的数据源(操作数据库)。由于历史的原因,各操作数据库的组织结构往往是不同的,在这些异构数据输入到数据仓库之前,必须经历一个集成过程。 1.1 引言 集成的 最重要的特点。应用问题的设计人员制定出不同的设计决策,且表示方法不同。例如编码、命名习惯、实际属性和属性度量等方面不一致。 数据进入数据仓库时,需要消除各种不一致性。例如,数据仓库中顾客“性别”的编码,可采用“男/女”或“m/f”,采用哪种方式并不重要,重要的是在数据仓库中应该统一编码。如果应用数据编码为“X/Y”,则进入数据仓库时需要进行转换。 此外,对所有应用所涉及的问题都要考虑一致性。例如命名习惯、键码结构、属性度量以及数据特点等。 1.1 引言 与时间相关的 数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据。 1.1 引言 不可修改的 面向应用的事务数据库需要对数据进行频繁的插入、更新操作,而对于数据仓库中数据的操作仅限于数据的初始导入和记录查询。 操作型数据是一次访问和处理一个记录,可以对操作型数据库中的数据进行更新。但数据仓库中的数据则不同,通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。 1.2 体系结构 二层体系结构 1.2 体系结构 三层体系结构 1.3 数据仓库组成 一个数据仓库的大小一般都是在100GB以上 通常,数据仓库系统应该包含下列程序: (1)抽取数据与加载数据 (2)整理并转换数据(采用一种数据仓库适用的数据格式) (3)备份与备存数据 (4)管理所有查询(即将查询导向适当的数据源 ) 1.3 数据仓库组成 1.4 元数据 定义 元数据(Metadata)是关于数据的数据。 在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库开发人员非常方便地找到他们所需的数据;元数据是描述数据仓库中数据结构和构建方法的数据。 1.4 元数据 分类 按照用途的不同分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)两大类。 -技术元数据存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它保证了数据仓库系统的正常运行; -业务元数据从业务角度描述数据仓库中的数据,它提供介于使用者和实际系统之间的语义层,使得数据仓库使用人员能够“读懂”数据仓库中的数据。 1.5 数据粒度 定义 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 粒度深深地影响存放在数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。 在数据仓库中的数据粒度与查询的详细程度之间要做出权衡。 1.5 数据粒度 当提高粒度级别时,数据所能回答查询的能力会随之降低。换言之,在一个很低的粒度

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档