- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于效用表的快速高平均效用挖掘算法.doc
基于效用表的快速高平均效用挖掘算法
摘 要:高效用项集挖掘在数据挖掘领域中受到了广泛的关注,但是高效用项集挖掘并没有考虑项集长度对效用值的影响,所以高平均效用项集挖掘被提出;而目前的一些高平均效用项集挖掘算法需要耗费大量的时间才能挖掘出有效的高平均效用项集。针对此问题,给出了一个高平均效用项集挖掘的改进算法――FHAUI。FHAUI算法将效用信息保存到效用列表中,通过效用列表的比较来挖掘出所有的高平均效用值,同时FHAUI算法还采用了一个二维矩阵来有效减少二项效用值的连接比较次数。最后将FHAUI算法在多个经典的数据集上测试。实验结果表明,FHAUI算法在效用列表的连接比较次数上有了极大的降低,同时其时间性能也有非常大提高。
关键词:平均效用;高效用;模式挖掘;数据挖掘;频繁模式
中图分类号:TP311.13
文献标志码:A
文章编号:1001-9081(2016)11-3062-05
0 引言
模式挖掘是数据挖掘中的一个重要领域,其中频繁模式挖掘是在事务数据库中找出出现频率比较高的项集,但频繁模式挖掘方法[1-4]仅考虑项是否在事务中出现,并没有考虑项在事务中出现的频率或者项的权重,而项的频率和项的权重往往在实际的推荐中具有非常重要的作用。
为了解决这个问题,大量的高效用项集挖掘算法被提出。这些高效用项集挖掘算法可分为一阶段算法[5-7]和二阶段算法[8-12]。高效用项集挖掘是指挖掘数据库中效用值高于用户指定阈值的项集。因为高效用项集挖掘算法综合地考虑了项在事务中出现的次数和项本身的权重,所以其在实际场景中具有更广泛的应用;然而高效用项集挖掘仅仅关注项集的效用值,而对项集长度影响效用值的情况并未探讨。一般来说项集的长度越长,其效用值就越大,因此用相同的阈值来衡量长度不同的项集不是很合理。
为了降低项集长度对效用值的影响,以及挖掘出高平均效用项集,Hong等[13]提出了平均效用项集挖掘方法TPAU(Two-Phase Average-Utility)。该方法通过项集效用值和项集的长度来计算项集的平均效用值,即数据库中某一项集的平均效用值是指其真实的效用值除以该项集所含项的个数。高平均效用项集是指项集的平均效用值高于用户指定阈值的项集。由于TPAU是层次计算需要多次扫描数据库,HAUP-Growth(High Average-Utility Pattern Growth)算法[14]被提出。HAUP-Growth是基于树结构的算法,只需要两次数据库扫描即可挖掘出所有的候选项集,但是HAUP-Growth属于二阶段算法,会产生大量的候选项集,所以一阶段算法PBAU(Projection-Based Average-Utility)[15]、HAUI-tree(High Average-Utility Itemsets tree)[16]、HAUI-Miner(High Average-Utility Itemsets Miner)[17]被提出,其中HAUI-Miner是目前已知最优高平均效用项集挖掘算法,它采用AU-list结构保存项集效用信息,然后通过AU-list连接比较挖掘出所有的高平均效用项集,实验表明其时空性能都是最优的。尽管AU-list非常有效,但是其高平均上界并不够紧凑,因此挖掘过程中需要进行大量的连接比较。
为此本文提出了一个改进的效用列表结构IAU-list(Improved Average-Utility list),该结构给出了一个更紧凑的高平均上界,它大幅度减少了效用列表比较和连接的过程;另外,依据快速的高效用项集挖掘(Faster High-Utility Itemset, FHM)提出的EUCS(Estimated Utility Co-occurrence Pruning)结构[9]给出了一个平均效用删减的二维矩阵EAUCS(Estimated Average Utility Co-occurrence Pruning),该矩阵可以有效减少二项集的比较过程。FHAUI也是一个一阶段算法,不需要产生候选项集。
算法1的第2)~4)行判断当前项集X的一个扩展项集Y是否为高平均效用项集,如果Y是高平均效用项集则将其添加到高平均效用项集表中。第5)~13)行通过sum(Y.rmu)判断项集Y是否可扩展,如果可扩展,将X扩展项集中排在Y之后的项集Z与Y进行连接生成Y的扩展项集。第12行同样地,处理Y的所有扩展项集。如此遍历下去直到找出所有的高平均效用项集。
算法1对项集的效用列表的比较连接是一个深度优先的处理过程。例如,图1中的项集按排序CBDA,因为初始项集为null,则C、B、D、A均为null的扩展。算法先处理C生成所
您可能关注的文档
最近下载
- 矿山年冒顶片帮事故桌面演练方案.docx VIP
- 35kV架空线路铁塔通用设计-铁塔设计方案及图集 .pdf VIP
- 退役军人事务员练习试题.doc
- BS EN 1991-1-1:2002(英国标准,结构荷载1-1:密度、自重、建筑附加荷载).pdf VIP
- 教研项目经费使用情况汇报.pptx VIP
- 湖南省娄底市部分普通高中2024-2025学年高二下学期期末考试英语试卷(含答案).docx VIP
- 2025年高考数学试题分析与教学.pptx
- YDT1821-2008通信中心机房环境条件要求.docx VIP
- 《现场设备、工业管道焊接工程施工质量验收规范》.pdf VIP
- 非煤矿山冒顶片帮应急演练方案.doc VIP
文档评论(0)