关联规则挖掘算法研究的论文.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则挖掘算法研究的论文.doc

  关联规则挖掘算法研究的论文 摘 要 apriori算法是发现频繁项目集的经典算法,但是该算法需反复扫描数据库,因此效率较低。本文介绍了apriori算法的思想,并分析了该算法的性能瓶颈。在此基础上,针对apriori算法提出了一种改进方法,该方法采用转置矩阵的策略,只扫描一次数据库即可完成所有频繁项目集的发现。与其他经典的算法相比,本文提出的算法在项目集长度较大时,性能明显提高。 关键字 关联规则,支持度,置信度,apriori 1 引言 关联规则挖掘就是在海量的数据中发现数据项之间的关系,是数据挖掘领域中研究的热点问题。1993年agraannila等[4]提出:基于前一遍扫描得到的信息,对此仔细地作组合分析,可以得到一个改进的算法了。.针对mannila的思想toivonen[5]进一步提出:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验???这个结果。toivonen的算法相当简单并显著地减少了i/o代价,但是一个很大的缺点就是产生的结果不精确,存在数据扭曲(data ske}是二进制文字的集合,其中的元素称为项(item)。定义交易(transaction)t为项的集合,并且tiacute;i,定义d为交易t的集合。设x是i中若干项的集合,如果xiacute;t,那么称交易t包含x。项目集中包含项的个数成为项目集长度。 关联规则是形如xthorn;y的蕴涵式,这里xigrave;i, yigrave;i,并且xccedil;y=f。 规则xthorn;y在交易数据库d中的支持度(support)是交易集合中包含x和y的交易数与所有交易数之比,记为support(xthorn;y),即support(xthorn;y)=|{t:xegrave;yiacute;t,ticirc;d}|/|d|。 规则xthorn;y在交易集中的置信度(confidence)是指包含x和y的交易数与包含x的交易数之比,记为confidence(xthorn;y),即confidence(xthorn;y)=|{t: xegrave;yiacute;t,ticirc;d}|/|{t:xiacute;t,ticirc;d}|。给定一个交易集d,挖掘关联规则就是找出支持度和置信度分别大于用户给定的最小支持度(minsup)和最小置信度(minconf)的关联规则。 2.2 基本思想 1994年agra(rk)=support(rk)*|d|=|tids(xk)|。l’k表示k-项集的集合。 改进的apriori算法依然采用“逐层有哪些信誉好的足球投注网站”的迭代方法,迭代过程的“连接-剪枝”运算定义如下: ①连接:设两个(k-1)-项集:l’ k-1 (i)=lt; xk-1,tids(xk-1) gt;icirc; l’k-1,l’ k-1 (j)=lt; yk-1,tids(yk-1) gt;icirc; l’k-1,ilt;j。如果xk-1和yk-1的前k-2项相等,即:xk-1[k-2] ≡yk-1[k-2],则(k-1)-项集连接:l’ k-1 (i)∞l’ k-1 (j)= lt; xk-1 ∪yk-1, tids(xk-1) ∩tids(yk-1)gt;= lt;xk,tids(xk)gt;=rkicirc; l’k;否则,不进行连接运算,因为产生的结果不是重复,就是非频繁项目集,这样可减少计算量。 ②剪枝:计算k-项集的支持数,根据上面的定义supnum(rk)=|tids(xk)|,该计算过程不需要再扫描数据库,避免了i/o操作,提高了算法的效率。如果supnum(rk)≥minsupnum,则lt; xk , |tids(xk)|gt; icirc; l;否则,从集合l’k中删除rk。 3.2 改进的算法描述 输入:数据库d,最小支持数minsupnum 输出:d中的频繁项目集l 算法描述: ① l’1 = findfrequentoneitemsets(d); //扫描数据库d生成1-项集的集合l’1。 ② for each oneitemset lt;x1, tids(x1)gt;icirc;l’1 //生成频繁1-项集的集合 if (|tids(x1)| ≥ minsupnum) l = l ∪ {lt;x1, |tids(x1)|gt;}; else l’1 = l’1 - {lt;x1, tids(x1)gt;}; ③ for (k=2; l’k-1≠ф; k++) l’k = l’k-1∞l’k-1; for each k_itemset lt;xk, tids(xk)gt; icirc;l’k if (|tids(xk)| ≥ min

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档