tp-4410数据仓库和数据挖掘原理和应用第1章.pptVIP

tp-4410数据仓库和数据挖掘原理和应用第1章.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
tp-4410数据仓库和数据挖掘原理和应用第1章

第一篇 数据仓库与OLAP 第一章 数据仓库基本概念;第一章 目录; 1.1 从数据库到数据仓库 ; 1.1.1 蜘蛛网问题(1); 在部门级数据的基础上可能还要被继续执行抽取程序,以建立个人级的数据库。比如,专门负责制作公司财务报表的数据人员,常常需要从财务部门的数据库系统中抽取数据。又如,部门经理可能经常抽取常用的数据到本地,有针对性的建立个人级数据库就显得尤为重要。 随着数据的逐层抽取,很可能最终导致系统内的数据间形成了错综复杂的网状结构,如图1.1所示,人们形象地称为“蜘蛛网”。一个大型的公司每天进行上万次的数据抽取很普遍。这种演变不是人为制造的,而是自然演变的结果。企业的规模越大,“蜘蛛网”问题就越严重。 ; 网上的任意两个节点的数据可能归根结底是从一个原始库中抽取出来的,但其数据没有统一的时间基准,因而错综复杂的抽取与访问将产生很多问题,主要有以下几个方面。 ; 1. 数据分析的结果缺乏可靠性 图1.2中展示了某企业的市场部和计划部对项目I是否具有市场前景的分析过程和结果。市场部认为“项目I的市场前景很好”,而计划部却得到截然相反的结果----“项目I没有市场前景”。作为企业的最终决策者,将如何根据这样的结论进行决策呢? 为什么分析同一个企业数据库中的数据,却得到截然相反的结论呢? 首先,两部门可能抽取数据的内容不同。比如,市场部抽取的是项目I在大客户中的应用情况,而计划部抽取的是项目I在普通客户中的应用情况。 ; 其次,可能两部门抽取数据的时间不同。如市场部在星期日晚上提取分析所需的数据,而计划部在星期三下午就抽取了数据。有任何理由相信对某一天抽取的数据样本进行分析与对另一天抽取的数据样本进行的分析可能相同吗?当然不能!企业内的数据总是在变的。 再次,引用外部信息的不同。分析项目的发展趋势常常需要引入企业外部的信息,比如报刊信息、国家的政策等。市场部门引用的外部信息来源可能与计划部门不同,而外部信息自然是仁者见仁,智者见智,这也可能是导致最终分析结果不同的原因。 最后,分析程序的差异。市场部门使用的分析程序可能与计划部门不同,分析的内容和指标也可能不同。; ; 2. 数据处理的效率很低 数据分析的结果缺乏可靠性并不是蜘蛛网问题中唯一的主要问题。在一个大型企业中,不同级别的数据库可能使用不同类型的数据库系统,对于拥有巨型数据量的企业级数据库可能使用IBM DB2,而对于部门级和个人级的中小型数据库可能使用SQL Server。各种数据库的开发工具和开发环境不同,当需要在整个企业范围内查询数据时,数据处理的低效率将是不容忽视的。 如果一个大型企业的决策领导需要一份关于公司整体运营情况的报表,通常需要动用大量的人力和物力才能达到。首先,定位报表需要的数据,即确定报表涉及的内容分布在哪个数据库的哪个位置,然后调动各个部门的程序员/分析员对应用进行分析、设计和编码。 ; 由于数据分散在各个数据库中,因此需要编写的程序很多。由于企业中使用的数据库类型很多,因此可能需要使用多种技术来实现。可见,面对企业中存在的蜘蛛网现象,为产生一份关于公司整体运营情况的报表,将动用大量的人力、物力和时间才能完成。 如果低效率的过程是一次性的,那么为生成报表花费大量的资源也是可取的。换句话说,如果生成第一份企业报表需要大量资源,生成所有后继报表可以建立在第一份企业报表基础之上,那么不妨为生成第一份报表付出一些代价。但是事实并非如此。 除非事先知道未来的企业报表需求,并且除非这些需求影响到第一张报表的建造,每个新的企业报表总是要花费同前面差不多的代价。 因此,数据处理的低效率是蜘蛛网问题所面临的又一个问题。; 3. 难以将数据转化成信息 除了数据处理效率和数据可信度的问题之外,“蜘蛛网”式的结构还难以将数据转化成信息。比如,某电信公司要想分析某个大客户今年的情况和过去3年有什么不同?大客户的情况可能包括呼叫行为、话费情况、交费情况、咨询问题等。因此要想比较完整地回答这个问题,实际上需要将客户多方面的数据综合成信息。但“蜘蛛网”式的结构中数据缺乏集成性,因此,对综合信息需求的支持确实是不充分的。 另外,每个数据库由于其数据量和业务处理的需求不同,对历史数据的存储时间也不同,因此在蜘蛛网环境中

文档评论(0)

sy78219 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档