第3章OLAP技术讲述.pptVIP

下载本文档

37
0
约1.15万字
约 85页
2017-04-05 发布于湖北
举报
版权申诉

第3章OLAP技术讲述.ppt

1、本文档共85页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第3章OLAP技术讲述

2. 聚集的物化　　所谓物并就是预计算并存储数据立方体的方体。物化方法有不物化、求全物化和部分物化。　　不预计算任何“非基本”方体。这可能导致回答查询时，因进行昂贵的多维聚集计算，速度非常慢。（1）不物化方法　　全物化是指对维集合的所有可能组合都进行聚集。　　最为简单的全物化方法是通过计算n维事实表中的数据，依次得到2n个聚集方体，这可能产生维灾难。（2）全物化方法基于依赖关系的聚集计算：　　可以从k+1维方体通过单个维聚集产生k维方体，称这两个方体之间有依赖关系，由依赖关系构成依赖图。　　依赖图的思路是：为了计算所有方体，将所有方体作为图的结点，如果两个方体的维数相差1，则较小的方体可以通过维聚集用较大的方体计算出来。　　有这种关系的结点间，就从较大的方体到较小的方体之间画一条有向边。　　例如，对于3维立方体（A，B，C），对应的依赖图如图3.16所示。依赖图中每个结点代表了一种方体，从根结点（ABC对应的结点）到该结点的路径指出计算该方体的过程。实际上，依赖图是一个方体格。　　在全物化时，需要计算出依赖图中所有结点对应的方体，这一过程是十分耗时的。改进的方法是构造出依赖树，构造依赖树的过程如下：对于n维立方体cube[d1，d2，…，dn]，|di|表示维di的大小，即不同维成员的个数，对cube接各维排序，使得|d1|≤|d2|≤…≤|dn|。对同一层的所有结点排序，使得各维按词典序排列。从高维到低维，从小到大处理每个结点p：对p的每一个减1维子方体q，若q没有父结点，从p引一条有向边到q。　　部分物化是指在部分维及其相关层次上进行聚集，即从数据立方体的所有方体中选择一个子集进行物化。　　在一般情况下，通常20%的聚集就能够满足80%的查询需要。如何确定该20%的聚集是提高聚集效率的关键。部分物化是存储空间和响应时间二者之间的很好折衷。（3）部分物化方法方体或子立方体的部分物化应考虑三个因素：确定要物化的方体子集或子立方体。在查询处理时利用物化的方体或子立方体。在装入和刷新时，有效地更新物化的方体或子立方体。　　有些OLAP产品采用启发式方法选择方体和子立方体。一种较流行的方法是物化这样的方体集，其他经常引用的方体是基于它们的。　　还有一种方法是计算冰山立方体（icebery cube）。冰山立方体是一个数据立方体，只存放其聚集值（如count）大于某个最小支持度阈值minsup的立方体单元，如仅考虑记录个数大于ninsup的维方体，采用SQL模拟，对应的语句如下： SELECT 日期，地点，商品，COUNT(*) FROM 销售表 GROUP BY 日期，地点，商品 HAVING COUNT(*)=minsup 3. 数据立方体的压缩存储　　通常数据立方体中包含海量数据，为了节省存储空间，人们提出了各种数据压缩方法。这里介绍一种相对简单的压缩方法。　　对于给定的数据立方体，由于度量的不同值个数可能很大，难以压缩存储。主要是对维进行压缩存储。　　对于数据立方体的一个维度di，求出其中不同的维成员个数为|di|，采用二进制编码，对应的二进制位数为mi，它为满足条件≥|di|的最小mi，对于图3.18（a）所示的数据立方体，m1=3，m2=2，m3=1，m4=1，编码后的数据立方体如图3.18（b）所示。　　为了方便存取，设计对应的压缩存储结构如图3.19所示，词典表中包含各维成员的编码表。　　例如在维2的编码表中，40对应的编码为00，其物理地址也为00，这种设计便于高效查找。　　向量表中包含各维对应的事实数据，以编码方式存放，通过相同的地址关联，如维1向量的第2行、维2向量的第2行、维3向量的第2行、维4向量的第2行构成第2个事实元组。图3.19 数据立方体的压缩存储结构 3.4.2 索引OLAP数据 1. 位图索引 2. 连接索引 3.4.3 OLAP查询的有效处理　　物化方体和索引OLAP数据的目的是加快数据立方体查询处理的速度。通常，OLAP查询处理的步骤如下：确定哪些操作应当在可利用的方体上执行：这涉及将查询中的选择、投影、上卷（分组）和下钻操作转换成对应的SQL或OLAP操作。例如，数据立方体的切片和切块可能对应于物化方体上的选择或投影操作。确定相关操作应当使用哪些物化的方体：这涉及找出可能用于回答查询的所有物化方体，使用方体之间的依赖关系，剪去上集合，评估使用剩余物化方体的代价，并选择代价最低的方体。　　例如，对于第2章的SDWS数据仓库，定义一个形式为“Sale_cube[Dates，Products，Locates]：SUM(销售量)”的数据立方体。　　所用的维层次，对于Dates维是：日期≤月份≤季度≤年份≤All” 　　对于P