第5章 数据仓库与数据挖掘 数据库新技术 教学课件.ppt

第5章 数据仓库与数据挖掘 数据库新技术 教学课件.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 数据仓库与数据挖掘 数据库新技术 教学课件

第5章 数据仓库与数据挖掘 第5章 数据仓库与数据挖掘 5.1 数据集成 2 数据集成概述 数据集成方法 5.2 数据仓库 数据仓库概述 数据仓库原理 数据仓库设计 数据仓库的典型功能 5.3 数据挖掘 数据挖掘概述 关联规则挖掘 分类 聚类 5.1 数据集成 数据仓库 决策支持系统(decision support system,DSS)所需数据是必须预先经过提取、转换、过滤之后再与其他数据源整合,最终按主题存放在中央数据库中 客户查询数据时只需访问中央数据库(database,DB),而无需访问其他数据库。 Data Warehousing 数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。 数据仓库所定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。 Data Warehousing 主题(Subject):特定的数据分析领域与目标。 面向主题:为特定的数据分析领域提供数据支持。 为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。 数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。 例1:一个面向事务处理的“商场”数据库系统,其数据模式如下: 采购子系统: 订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,日期) 库存管理子系统: 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,仓库管理员,地点,库存商品描述) 人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话) 上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。 如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。 商品固有信息:商品号,商品名,类别,颜色等 商品采购信息:商品号,供应商号,供应价,供应日期,供应量等 商品销售信息:商品号,顾客号,售价,销售日期,销售量等 商品库存信息:商品号,库房号,库存量,日期等 供应商固有信息:供应商号,供应商名,地址,电话等 供应商品信息:供应商号,商品号,供应价,供应日期,供应量等 顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等 顾客购物信息:顾客号,商品号,售价,购买日期,购买量等 在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。 不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;是部分细节的重叠,而不是完全的重叠。 每个主题所需数据的物理存储: 数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。 集成的方法: 例如:水情数据仓库 数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,供企业决策分析之用,执行的主要是‘查询’操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。 数据仓库的数据有时需要‘更新’操作。 在需要进行新的分析决策时,可能需要进行新的数据抽取和‘更新’操作 数据仓库中的一些过时的数据,也可以通过‘删除’操作丢弃掉 数据仓库的存储管理相对于DBMS简单得多。 数据仓库中的数据必须以一定时间段为单位进行统一更新。 数据仓库结构图 常见的概

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档