第3章OLAP技术讲述.pptVIP

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章OLAP技术讲述

2. 聚集的物化   所谓物并就是预计算并存储数据立方体的方体。物化方法有不物化、求全物化和部分物化。   不预计算任何“非基本”方体。这可能导致回答查询时,因进行昂贵的多维聚集计算,速度非常慢。 (1)不物化方法   全物化是指对维集合的所有可能组合都进行聚集。   最为简单的全物化方法是通过计算n维事实表中的数据,依次得到2n个聚集方体,这可能产生维灾难。 (2)全物化方法 基于依赖关系的聚集计算:   可以从k+1维方体通过单个维聚集产生k维方体,称这两个方体之间有依赖关系,由依赖关系构成依赖图。   依赖图的思路是:为了计算所有方体,将所有方体作为图的结点,如果两个方体的维数相差1,则较小的方体可以通过维聚集用较大的方体计算出来。   有这种关系的结点间,就从较大的方体到较小的方体之间画一条有向边。   例如,对于3维立方体(A,B,C),对应的依赖图如图3.16所示。依赖图中每个结点代表了一种方体,从根结点(ABC对应的结点)到该结点的路径指出计算该方体的过程。实际上,依赖图是一个方体格。   在全物化时,需要计算出依赖图中所有结点对应的方体,这一过程是十分耗时的。改进的方法是构造出依赖树,构造依赖树的过程如下: 对于n维立方体cube[d1,d2,…,dn],|di|表示维di的大小,即不同维成员的个数,对cube接各维排序,使得|d1|≤|d2|≤…≤|dn|。 对同一层的所有结点排序,使得各维按词典序排列。 从高维到低维,从小到大处理每个结点p:对p的每一个减1维子方体q,若q没有父结点,从p引一条有向边到q。   部分物化是指在部分维及其相关层次上进行聚集,即从数据立方体的所有方体中选择一个子集进行物化。   在一般情况下,通常20%的聚集就能够满足80%的查询需要。如何确定该20%的聚集是提高聚集效率的关键。部分物化是存储空间和响应时间二者之间的很好折衷。 (3)部分物化方法 方体或子立方体的部分物化应考虑三个因素: 确定要物化的方体子集或子立方体。 在查询处理时利用物化的方体或子立方体。 在装入和刷新时,有效地更新物化的方体或子立方体。   有些OLAP产品采用启发式方法选择方体和子立方体。一种较流行的方法是物化这样的方体集,其他经常引用的方体是基于它们的。   还有一种方法是计算冰山立方体(icebery cube)。冰山立方体是一个数据立方体,只存放其聚集值(如count)大于某个最小支持度阈值minsup的立方体单元,如仅考虑记录个数大于ninsup的维方体,采用SQL模拟,对应的语句如下: SELECT 日期,地点,商品,COUNT(*) FROM 销售表 GROUP BY 日期,地点,商品 HAVING COUNT(*)=minsup 3. 数据立方体的压缩存储   通常数据立方体中包含海量数据,为了节省存储空间,人们提出了各种数据压缩方法。这里介绍一种相对简单的压缩方法。   对于给定的数据立方体,由于度量的不同值个数可能很大,难以压缩存储。主要是对维进行压缩存储。   对于数据立方体的一个维度di,求出其中不同的维成员个数为|di|,采用二进制编码,对应的二进制位数为mi,它为满足条件≥|di|的最小mi,对于图3.18(a)所示的数据立方体,m1=3,m2=2,m3=1,m4=1,编码后的数据立方体如图3.18(b)所示。   为了方便存取,设计对应的压缩存储结构如图3.19所示,词典表中包含各维成员的编码表。   例如在维2的编码表中,40对应的编码为00,其物理地址也为00,这种设计便于高效查找。   向量表中包含各维对应的事实数据,以编码方式存放,通过相同的地址关联,如维1向量的第2行、维2向量的第2行、维3向量的第2行、维4向量的第2行构成第2个事实元组。 图3.19 数据立方体的压缩存储结构 3.4.2 索引OLAP数据 1. 位图索引 2. 连接索引 3.4.3 OLAP查询的有效处理   物化方体和索引OLAP数据的目的是加快数据立方体查询处理的速度。通常,OLAP查询处理的步骤如下: 确定哪些操作应当在可利用的方体上执行:这涉及将查询中的选择、投影、上卷(分组)和下钻操作转换成对应的SQL或OLAP操作。例如,数据立方体的切片和切块可能对应于物化方体上的选择或投影操作。 确定相关操作应当使用哪些物化的方体:这涉及找出可能用于回答查询的所有物化方体,使用方体之间的依赖关系,剪去上集合,评估使用剩余物化方体的代价,并选择代价最低的方体。   例如,对于第2章的SDWS数据仓库,定义一个形式为“Sale_cube[Dates,Products,Locates]:SUM(销售量)”的数据立方体。   所用的维层次,对于Dates维是:日期≤月份≤季度≤年份≤All”   对于P

您可能关注的文档

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档