数据仓库的基本原理.pptVIP

  1. 1、本文档共114页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

在抽样中,抽样率和抽样方法要慎重考虑。过大的抽样率将浪费系统的计算资源;过小的抽样率可能使得样本数据集合太小,而不能反映源数据特征。数据的分割例子:比如将1995~2001年的客户呼叫行为放在一张表中,则一次查询需要检索整张表,如果问题的范围只在2001年内,则我们仅需检索2001年的信息即可。另一种想法就是将客户呼叫行为按年分成1995、1996、1997、1998、1999、2000、2001等几张表,则我们只需检索2001表即可。对于一个数据量很大的系统来说,这两种策略的效率相差很大。数据分割没有固定的标准,分割的方法和粒度应当根据实际情况来确定。分割方法常常可以选择时间、地点、业务领域来划分。按照时间进行分割符合数据仓库数据随时间变化的特点,并且分割后数据分布比较均匀,是最常用的分割方法。所谓数据分割是指将数据分散到各自的物理单元中以便能够独立处理,提高数据处理的效率。数据分割后的数据单元称为分片。010201按照地理位置分割如果问题涉及的数量非常大,可以按照问题的需求从多个角度进行分割例如按照时间和地理位置两个角度进行分割。按照时间和地理位置分割重组是对分割的数据进行新的组合数据仓库数据组织形式简单堆积文件每天由数据库提取并处理后的数据逐天存储起来”定期综合文件在定期综合文件这种方式中,数据存储单位被分成日、周、旬、月、季度、年等多个级别,如图所示。数据被逐一地添加到每天的数据集合中,当一个星期过去了,每天数据被综合成周数据,以此类推,周数据被综合成月数据……定期综合文件的组织方式使得数据量比简单堆积文件方式大大减小,但是数据的细节在综合中丢失。因此,定期综合文件的形式是牺牲数据的细节换取数据量级的减小。连续文件定期综合文件数据量级小时丢失了数据细节,简单堆积文件保留细节但数据量级又很大,是否可以综合两者形式的优点呢?在简单堆积文件中,每天的数据表中有许多雷同的信息,例子:商场2001/1和2001/2的两张采购表,其中“牙膏”和“毛巾”在两个表都出现了。“牙膏”在2001/1是从上海购买的,而2001/2是在北京购买,其他的信息都相同。如果能够记录两表之间不同的信息,则既能保留细节信息,又能大大减小数据量。12对于两个表中相同的表项“毛巾”,只需在时间列上说明使用范围是“2001/1~001/2”,对于两表不同的表项分别记录。随着时间的推移,如果又有新的数据表加入,则我们可以使用连续文件和新的数据表进行类似的处理。但是,连续文件增加的“时间”列也会为查询带来一定的不便。一个系统某些性能的提高,总是通过牺牲其他的性能来获得的。数据的组织结构和数据的组织形式解决的是数据仓库数据的存储问题。数据追加解决的是在数据仓库初始数据转载后,如何再向数据仓库输入数据的问题。0102数据仓库的数据追加技术如果数据库中的数据没有发生变化,则不需要对数据仓库进行追加,因此,数据追加实际上只增加在上次数据输入后数据库中变化了的数据。要完成数据追加的工作,最关键的是“捕获”数据变化,并将数据的变化记录下来。例子:如图所示。最早提出“时标法”的思想是为数据记录增加一个时间标记。当数据在上次数据导入完成后发生了变化,则修改这条记录的时间标记。时标法但是,在时间的数据库系统中,通常没有专门的时间标记。数据库应用的设计者主要是从实现事务处理的功能角度来考虑问题,因此,数据库应用的设计者通常不会增加时间标记列,因为该列对于事务处理系统来说是不必要的。由于这些原因,时标法虽然简单,很难得到应用。12前后映像比较法另一种简单的方法是前后映像比较法,其想法很简单:将上次执行完数据追加任务的数据库快照记录下来,同要执行新的数据追加任务前的数据库快照进行比较,比较这两次快照的不同,来生成追加的内容。如果数据库的数量级很大,进行这样全数据库的比较将会耗费大量的系统资源和时间。数据仓库的功能和特征操作型数据的特点分析型数据的特点细节的综合的、经过提炼的在存取的瞬间是准确的代表过去的数据可更新不更新操作需求通常事先可知分析需求通常不知道生命周期符合SDLC生命周期不同于SDLC对性能(如操作时延)要求高

文档评论(0)

shaoye348 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档