- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章数据仓库概述讲述
数据仓库与数据挖掘
原理及实践
第1章 数据仓库概述
1.1 数据仓库及其历史
1.2 数据仓库系统结构
1.3 数据仓库系统开发工具
1.4 数据仓库与操作型数据库的关系
1.5 商务智能与数据仓库的关系
1.1 数据仓库及其历史
20世纪60年代出现了数据库的概念,确立了数据库系统的许多概念、方法和技术。
70年代由E.F.Codd提出了数据库的关系理模型,开创了数据库关系方法和关系数据理论的研究,为关系数据库技术奠定了理论基础。
80年代出现成熟的关系数据库管理系统(DBMS)。
90年代以后进入数据处理大发展时期,各种数据模型、数据库新技术层出不穷地涌现,如数据仓库和数据挖掘、商务智能、多媒体数据库和Web数据库等。
1.1.1 数据库技术的发展
1.1.2 什么是数据仓库
1. 数据仓库的定义
W.H.Inmon:数据仓库是:
一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。
2. 数据仓库的特征
◎ 面向主题
主题是指用户使用数据仓库进行决策时所关心的重点领域,也就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。
面向主题组织的数据具有以下特点:
各个主题有完整、一致的内容以便在此基础上作分析处理。
主题之间有重迭的内容,反映主题间的联系。重迭是逻辑上的,不是物理上的。
各主题的综合方式存在不同。
主题域应该具有独立性(数据是否属于该主题有明确的界限)和完备性(对该主题进行分析所涉及的内容均要在主题域内)。
◎ 集成
数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、转换、综合等工作。
◎ 稳定性即非易失的
操作型数据库系统中一般只存储短期数据,因此其数据是不稳定的,它记录的是系统中数据变化的瞬态。
数据仓库中的数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。
◎ 随时间而变化即时变的
数据仓库大多关注的是历史数据,其中数据是批量载入的,即定期从操作型应用系统中接收新的数据内容,这使得数据仓库中的数据总是拥有时间维度。
3. 数据仓库的历史
1988年,IBM公司第一次提出了信息仓库(Information Warehouse)的概念,数据仓库初具雏形。
1991年,W.H.Inmon出版了《Building Data Warehouse》一书。W.H.Inmon主张建立数据仓库时采用自上而下方式,以第3范式进行数据仓库模型设计。
1993年,R.Kimball(金博尔)出版了《The DataWarehouse Toolkit》一书,认同了比尔恩门对于数据仓库的定义,但对具体的构建方法做了更进一步的研究。R.Kimball主张自下而上的方式,力推数据集市建设。
1996年,加拿大的IDC公司调查了62家实现数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益、进行数据仓库项目开发的公司在平均2.72年内的投资回报率为321%。
到如今,数据仓库已成为商务智能由数据到知识,由知识转化为利润的基础和核心技术。
1.2 数据仓库系统结构
1.2.1 数据仓库系统的组成
数据仓库系统通常指一个数据库环境,而不是指一件产品。
是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操作型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
1. 数据仓库
把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库内。
其功能包括:删除对决策应用没有意义的数据,转换到统一的数据名称和定义,计算统计和衍生数据,填补缺失数据,统一不同的数据定义方式。
2. 抽取工具
是关于数据的数据,在数据仓库中元数据位于数据仓库的上层,是描述数据仓库内数据的结构、位置和建立方法的数据。
通过元数据进行数据仓库的管理和通过元数据来使用数据仓库。
3. 元数据
数据集市是在构建数据仓库的时候经常用到的一个词汇。
数据集市面向企业中的某个部门(或某个主题)是从数据仓库中划分出来的,这种划分可以是逻辑上的,也可以是物理上的。
数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的信息,其目的是减少数据处理量,使信息的利用更加快捷和灵活。
4. 数据集市
OLAP服务指的是对存储在数据仓库中的数据提供分析的一种软件,它能快速提供复杂数据查询和聚集,并帮助用户分析多维数据中的各维情况。
5. OLAP服务
为用户产生的各种数据分析和汇总报表,以及数据挖掘结果。
6. 数据报
您可能关注的文档
- 第1章单片机C语言概述讲述.ppt
- 第1章_物联网导论讲述.ppt
- 第1章初识供应链管理讲述.ppt
- 第二章_冲压成形概述详解.ppt
- 第4章智能传感器的集成技术详解.ppt
- 第1章动漫入门知识讲述.ppt
- 第二章_进程管理习题修改详解.doc
- 第1章——流体及其物理性质讲述.ppt
- 第4章主存储器详解.ppt
- 第1章X射线的物理学基础讲述.ppt
- 2025至2030中国婴儿拉式蚊帐行业发展现状及发展趋势与投资风险报告.docx
- 2025至2030中国半导体陶瓷靶行业项目调研及市场前景预测评估报告.docx
- 2025至2030中国果汁行业供需趋势及投资风险报告.docx
- 2025至2030中国双节距滚子链行业项目调研及市场前景预测评估报告.docx
- 2025至2030全球及中国电子电气中的cPDM行业项目调研及市场前景预测评估报告.docx
- 2025至2030工业风幕行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至20305G技术行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2025至2030钛合金行业产业运行态势及投资规划深度研究报告.docx
- 2025至2030中国冶金工程施工总承包行业运营态势与投资前景调查研究报告.docx
- 2025至2030铁路IT支出行业产业运行态势及投资规划深度研究报告.docx
最近下载
- 2024年中国零售商调查报告—全球化视角之海外门店拓展.pdf VIP
- 八大特殊作业(八大危险作业)安全管理知识与规范培训(PPT132页).pptx VIP
- 银行会计岗位招聘笔试题(某大型集团公司)试题集解析.docx VIP
- 磅房计量考试试题及答案.doc VIP
- 绿化养护标准及收费办法.docx VIP
- 儿童闭塞性细支气管炎的诊断和治疗(2023版)专家共识解读课件.pptx VIP
- CTX-M耐药基因流行病学调查及耐药机制研究.pdf
- 中国共产党纪律处分条例测试题附答案+考试注意事项.doc VIP
- 财务会计与税务会计差异及协调探讨.doc VIP
- (高清版)DG∕TJ 08-2410-2022 文物和优秀历史建筑消防技术标准.docx VIP
文档评论(0)