(已发表)基于HOLAP的关联规则挖掘推荐.doc

(已发表)基于HOLAP的关联规则挖掘推荐.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(已发表)基于HOLAP的关联规则挖掘推荐

基于HOLAP的关联规则挖掘 Association Rule Mining on Hybrid OLAP 周爱广 李玉忱 蒋志芳 曹璐 (山东大学计算机科学与技术系 250061) 摘要:本文提出了一种基于关系数据库和一维内存数组相结合的HOLAP的实现方式,以及基于这种数据立方体的改进的关联规则挖掘算法。在预处理的基础上,减少扫描空间和扫描次数,利用聚合数据减少计算时间,以达到一种OLAP和数据挖掘相结合的高效模式。 Abstract: In this article, we introduced a realization of HOLAP based on the RDBMS and one dimensional cache array. An improved association rule mining algorithm on this kind of data cube was presented at the same time. Pre-processing of data helps to reduce the room and times for scan. Information of multidimensional aggregation reduce the time on computation. The goal of this article is to generalize a combined efficient paten of OLAP and data mining. 关键词:OLAP,HOLAP,数据立方体,聚合计算,关联规则,数据挖掘 引言 数据挖掘(Data Mining)是一种从大型数据库或数据仓库中发现隐藏信息和预测信息的新技术。它的目标是发现数据间潜在的模式,找出最有价值的信息。关联规则发现[2][3]作为数据挖掘的任务之一就是发现数据对象间的某种有价值的相互联系和满足一定条件的互相依赖关系,可以形式化为A1^A2^……^Ai = B1^B2^……^Bj。但是当前众多的关联规则挖掘算法存在的主要问题是实现起来困难。原因是挖掘工作在大型数据库或数据仓库中进行,大量的属性导致有哪些信誉好的足球投注网站空间过大,生成大量的无意义或有悖常识的冗余模式。 Han . J . W 等在数据立方体的基础上提出多维数据挖掘[1]的概念,将数据挖掘功能与OLAP(On_Line Analytical Processing )的聚合计算相结合,在数据立方体中进行多维、多层次的数据挖掘。这样就可以结合OLAP和数据挖掘两方面的优点,既具有OLAP的在线、灵活性,又具有数据挖掘的深入性。这也是数据仓库技术和数据仓库工具发展的必然方向。为了探索将数据挖掘和OLAP技术实现结合,本文提出了一种基于HOLAP(Hybrid OLAP )的关联规则挖掘算法:在关系型数据库的基础上,引入一维数组来实现多维聚合数据立方体,形成一种混合型OLAP模式,然后给出一种先聚合计算然后在聚合数据的基础上进行关联规则挖掘的算法。实验结果证明基本达到了预期目的。 基于关系和内存一维数组的HOLAP的实现 ROLAP与MOLAP的分析 当前应用中多数OLAP实现方式是基于关系数据库的ROLAP和基于多维数据库的MOLAP。ROLAP是使用传统的关系数据库(RDB)通过星型结构或雪花型结构[4]来实现数据立方体,而且文献[8]还在SQL Group-By操作的基础上扩充了CUBE操作符使立方体操作具体化。ROLAP的优点是查询操作灵活,但是在数据预处理程度较低的情况下,查询效率将很低,预处理程度高时,又会带来较大的数据冗余。MOLAP是使用多维数据库(MDB)来存储OLAP分析用的数据,MDB在存储数据时,最简单的形式就是使用稀疏数组[5]来实现,数组的维作为坐标轴,将数据在立方体中的位置映射为在数组中的位置。MOLAP的优点是响应时间短,缺点是数据立方体必须事先定义好,因此灵活性差,并且经过比较复杂的预处理,内存开销大。 通过以上分析,ROLAP和MOLAP各有利弊,于是产生了两者相结合的方式HOLAP。 HOLAP的实现 HOLAP的实现方式有多种,其中较为理想的方式目前公认为是利用MDB存储聚合信息,而利用RDB存储细节数据。下面讨论如何实现聚合数据立方体。 定义1:(数据立方体)数据立方体是一个5元组,CUBE=(D,M,DOM,f,aggr)。D={d1,…,dn}称为维标识集;M={m1,…,mm}称为指标标识集;DOM=dom1(…(domk为属性集取值域;f为D到M的在DOM上的部分映射;aggr为D上的聚合函数。 这是数据立方体的一个一般的形式化定义。更具体化的定义根据实现方式的不同而不同,主要区分在存储方式上。

文档评论(0)

bodkd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档