- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
17数据仓库与数据挖掘
绪 论
人类正处在信息“爆炸”时代,被“淹没”在数据“海洋”之中。然而,面对浩如烟海的数据,人们往往手足无措。如何有效组织和存储数据,如何从各种各样巨量的数据集中获取所需信息成为人们迫切关心的问题。数据仓库与数据挖掘的出现为人们解决这些问题带来新的有效途径。可以认为,数据仓库是一种多维化的信息组织技术,数据挖掘是新兴的信息分析技术,建筑在数据仓库上的数据挖掘将会带来更加令人惊奇的效果。
1.1 企业用户关心的新问题
众所周知,信息在企业的决策和商业活动中起着重要的支持作用。但是,现有的许多信息系统很难满足企业的某些信息需求。例如,企业在决策或商业活动中需要各式各样的数据,这些数据要能够进行比较、能够反映它们之间的关系,这种需求可能就是通常所说的报表数据。因此,企业领导在进行决策之前往往需要一份包含足够信息、能辅助决策的报表,在与客户进行商业谈判之前也希望得到真实反映企业实力的报表,以确保能够吸引客户签订商业合同。然而,对领导而言,他们只关心报表的质量和提交时间,不太关心报表的完成方法和具体细节。
某些报表从形式上看似乎很简单,领导认为信息部门应该能够在极短的时间内给出,但实际上,以企业现有的信息资源和分析手段,要得到领导所需要的报表往往费时费力。因此,会出现上文所说的现象:领导要求几个小时内提交报表,而信息部门在几天之后才能提交,造成企业商业机会的错失。尽管信息部门已经尽了最大的努力,但还是被领导指责为工作不尽心或工作能力差。
类似的事情很多。因此,信息分析人员开始思考:“我的用户到底想要什么?”
一般来说,用户关心以下问题:
(1)可访问性,即用户能否得到他所需要的信息;
(2)及时性,即事务对象创建后,用户得到信息需要等多长时间;
(3)表达格式,即用户能否用电子表格、图形、地图或其他分析工具来操纵他所得到数据、能否获得报表形式的数据等;
(4)完整性,即用户得到的数据是否全面、可信。
不难看出,这些问题与信息部门工作的效率和质量直接相关,并且其答案对企业的效益有很大影响。因此,信息部门应该支持企业的这类信息要求,并为企业创造一个崭新的未来。对这些问题的解决依赖于企业信息资源管理水平的提高以及信息分析能力的提高。
1.2 解决问题的一项新技术——?数据仓库
企业现有的信息资源管理主要依靠传统的数据库技术。企业利用数据库技术进行数据的组织和存储,并使用基于数据库的信息系统进行信息资源的有效利用。但是,随着计算机技术的飞速发展和企业间竞争的加剧,企业不断提出新的需求,这些新的需求是传统数据库技术难以满足的。
传统的数据库技术以数据库为中心进行从事务处理、批处理到决策分析等各种类型的数据处理工作。数据库系统作为数据管理手段,从它诞生开始,就主要用于事务处理。近年来,随着计算机应用的拓展,人们对计算机数据处理的能力提出了更高的要求,希望计算机能够更多地参与数据分析和决策支持。但是,事务处理和分析处理有着极不相同的性质,直接使用事务处理环境来支持决策存在一定的局限性。
事务处理环境不适宜决策支持应用的原因主要有以下几种:
(1)事务处理和分析处理的性能不同。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为特点完全不同,某个决策支持应用程序可能需要连续运行数个小时,从而消耗大量的系统资源。因此,将事务处理和分析处理这两种性能差异很大的应用放在同一个环境中运行是不合适的。
(2)数据集成问题。决策支持应用需要全面、正确的数据。全面、正确的数据是实现有效分析和决策的前提,相关数据收集得越完整,得到的分析结果就越准确,决策就越可靠。然而由于企业内部的事务处理应用比较分散,导致企业业务数据分散。数据集成可以使企业能够拥有全面、正确的数据。制约数据集成的因素很多,包括数据分散、数据不一致、外部数据和非结构化数据等。
(3)数据动态集成问题。集成数据必须以一定的周期(例如24小时)进行刷新, 即动态集成,否则会经常出现数据源中数据发生变化而集成数据中相关数据没有及时更新的情况。如果这些变化不能反映给决策者,决策者就会使用过时数据,从而可能导致错误的决策。事务处理系统一般不具备动态集成的能力。
(4)历史数据问题。事务处理一般只针对当前数据,因此,在数据库中一般只存储短期数据,即使有一些历史数据被保存下来,也往往没有得到充分利用。但对于决策分析而言,历史数据是相当重要的。没有对历史数据的详细分析就很难把握企业的发展趋势,绝大多数分析方法都是建立在大量的历史数据基础之上的。同时,决策支持系统在空间和时间的广度上对数据提出了更高的要求,事务处理环境难以满足这些要求。
(5)数据综合问题。在事务处理系统中积累了大量的细节数据,如何利用这些数据进行决策分析,一般需要在决策分析前对
您可能关注的文档
- 1 检查当前固件版本2 升级固件3 确认升级成功 - Philips.PDF
- ++862157747070长飞光纤光缆.PPT
- 02-问题反映与分析解决-文化创意设计研究所.PPT
- 1-3月工业企业利润点评增速稍缓,结构优化-南京银行.PDF
- 1-3变异系数与相关系数-建中数学科.PDF
- 1 低速CAN-BUS的数据传递 - 烟台汽车工程职业学院.PPT
- 1-阜阳师范学院信息工程学院.DOC
- 1000MW 机组仪用空压机频繁跳闸故障分析及处理.PDF
- 1011海上火灾灭火程序.PPT
- 101学年度主管研习.PPT
- GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 中国国家标准 GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 《GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs)》.pdf
- GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- 中国国家标准 GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 中国国家标准 GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 《GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样》.pdf
- 《GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯》.pdf
- 中国国家标准 GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯.pdf
最近下载
- 老年冠心病慢病管理指南(2023版)解读PPT课件.pptx VIP
- ISO14001:2015环境管理手册.pdf
- 少先队活动课《我爱国旗》(课件)-小学生主题班会三年级.pptx
- 01-03 医院信息系统升级方案(昆医二院-Cache2010+HIS 7.0升级到Cache2016+HIS P8.0P).docx
- 3D打印技术--英文1.ppt
- 一次性使用医疗用品管理.pptx VIP
- 喘病的护理常规ppt.pptx
- 非简并态微扰能量三级修正波函数二级修正论稿.doc
- 第一单元 第三节 常用的栽培技术 课件 云南教育出版社劳技八年级上册.ppt
- 经济学基础(高鸿业第三版)课后习题答案.pdf VIP
文档评论(0)