- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据立方体计算与数据泛化
数据立方体计算与数据泛化 数据立方体的计算:是数据仓库实现的一项基本任务。其全部或部分预计算可以大幅度降低响应时间,提高联机分析处理功能。然而,这种计算是一种挑战,因为它需要大量的计算时间和存储空间。 4.1 数据立方体的计算 数据立方体计算概述(复习) 数据仓库中的OLAP查询是一种海量数据计算 用户却希望这个计算能在数秒内完成 解决方法在于给出一种有效的计算数据立方体的方法 数据立方体的物化(复习) 数据立方体的物化可以有以下三种选择: 全物化(Full materialization) 预先计算所有方体 不物化(No materialization) 不预先计算任何“非基本”方体 部分物化(Partial materialization) 有选择地计算整个可能的方体集中一个适当的子集 考虑因素:(1)确定要物化的方体子集;(2)在查询时利用物化的方体;(3)在装入和刷新时,有效地更新物化的方体 确定物化哪些方体 考虑工作负荷下的查询、它们的频率和它们的访问开销等等 方体的操作 DMQL中的方体定义和计算 define cube sales[item, city, year]: sum(sales_in_dollars) compute cube sales 上述的compute cube子句可以转化为一个类似于SQL的语句 SELECT item, city, year, SUM (amount) FROM SALES CUBE BY item, city, year 这个相当于SQL中以下的group by子句 (item, city, year) –3D (item, city), (item year), (city, year) —2D (item), (city), (year) —1D () --0D 方体计算:ROLAP vs. MOLAP 方体计算的挑战:海量数据,有限的内存和时间 基于ROLAP的方法(底层使用关系模型存储数据) 将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类 在某些子聚集上分组,作为“部分分组步骤”。 可以由以前计算的聚集计算新的聚集,而不必由基本事实表计算 基于MOLAP方法(底层使用多维数组存储数据) 多路数组聚集的计算方法 将数组切成块(每个块都可以整个装入内存) 通过访问各个块来计算汇总值 方体计算的有效方法——多路数组聚集方法(1) 将数组分成块(chunk,一个可以装入内存的小子方) 通过访问立方体单元,计算聚集。可以优化访问单元组的次序,使得每个单元被访问的次数最小化,从而减少内存访问和磁盘I/O的开销。 方体计算的有效方法——多路数组聚集方法(2) 方体计算的有效方法——多路数组聚集方法(3) 方体计算的有效方法——多路数组聚集方法(4) 方法:各平面要按它们大小的升序排列进行排序和计算 方体计算的有效方法——多路数组聚集方法(5) 4.2 数据泛化 两种不同类别的数据挖掘 从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。 什么是概念描述? 概念描述(concept description):是数据泛化的一种形式,它产生数据的特征化和比较描述 特征化(characterization):提供给定数据汇集的简洁汇总。 区分(discrimination):提供两个或多个数据集的比较描述。 概念描述是一种最简单的描述性挖掘 当所描述的概念涉及对象类时,也称为类描述 概念指的是一类数据的集合 e.g. 研究生,大客户 概念描述 VS. OLAP 概念描述和数据仓库的联机分析处理(OLAP)都跟数据泛化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层泛化,便于考察数据的一般行为。 两者的主要区别: 概念描述 可以处理复杂数据类型的属性及其聚集 一个更加自动化的过程 OLAP 实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型 一个由用户控制的过程 数据泛化 数据泛化 数据库中的数据和对象通常包含着原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。 主要方法: 数据立方体(OLAP使用的方法) 面向属性的归纳方法 数据泛化:数据立方体方法 执行计算并将结果存储在数据立方体中 优点: 数据泛化的一种有效实现 可以计算各种不同的度量值 比如:count(), sum(), average(), max() 泛化和特征分析通过一系列的数据
文档评论(0)