网站大量收购独家精品文档,联系QQ:2885784924

关联规则挖掘r概述.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则挖掘r概述.doc

R语言关联规则可视化:扩展包arulesViz的介绍 关联规则挖掘是一种流行的数据挖掘方法,在R语言中为扩展包arules。然而,挖掘关联规则往往导致非常多的规则,使分析师需要通过查询所有的规则才能发现有趣的规则。通过手动筛选大量的规则集是费时费力。在本文中,我们基于探索关联规则的R扩展包arulesViz,提出几个已知的和新颖的可视化技术。 1、简介 算法步骤这里不做详细介绍,下面是几个重要的变量的定义: Supp(X=Y) = P(X) Conf(X=Y) = P(Y|X) 置信度 Lift(X=Y) = CONF(X=Y)/SUPP(Y) = P(X and Y)/(P(X)P(Y)) 提升度 (Lift)是避免了一些不平衡数据标签的偏差性,?Lift越大,则数据质量较好;Lift越小,则数据越不平衡。 2、数据准备和arulesViz的统一接口 使用扩展包arulesViz之前,我们首先需要加载它。这个包会自动加载其他所需要的数据包,如arules。如下面的数据集Groceries包含在arules包里面。 library(arulesViz) data(Groceries) summary(Groceries) 设置支持度为0.001,置信度为0.5,R语句入下: ?rules - apriori(Groceries, parameter = list(support = 0.001, confidence = 0.5)) rules set of 5668 rules 结果共找出了5668条规则。按照Lift降序排,最大的三条规则如下: inspect(head(sort(rules, by = lift), 3)) lhs rhs support confidence lift 1 {Instant food products, soda} = {hamburger meat} 0.001220132 0.6315789 18.99565 2 {soda, popcorn} = {salty snack} 0.001220132 0.6315789 16.69779 3 {flour, baking powder} = {sugar} 0.001016777 0.5555556 16.40807 3、散点图 直接用plot画出散点图 plot(rules) 图1 从图1可以看到高lift对应低supp。另外一些科学家认为最有意思的规则在supp/conf的边沿上,如图1所示。 head(quality(rules)) support confidence lift 1 0.001118454 0.7333333 2.870009 2 0.001220132 0.5217391 2.836542 3 0.001321810 0.5909091 2.312611 4 0.001321810 0.5652174 2.212062 5 0.001321810 0.5200000 2.035097 6 0.003660397 0.6428571 2.515917 如果我们想个性化plot图中的坐标的特征,将颜色表示conf,lift为纵标轴,如下所示。 图2 plot(rules, measure = c(support, lift), shading = confidence) 图2中的y轴是lift,这里可以比较清晰地看出很多的规则都有高lift。 图3 plot(rules, shading = order, control = list(main = Two-key plot)) 图3中,supp为x轴,conf为y轴,颜色的深浅表示“order”,例如规则里频繁项的个数。从图中可以看出,order和supp有着很强的负相关性。这在关联规则中也是熟知的。 散点图方法提供了互动功能的选择和缩放,可以使用interactive=TRUE来实现。 图4 sel - plot(rules, measure = c(support, lift), shading = confidence, + interactive = TRUE) 图4中选择了lift较高的几个点,并且使用inspect按钮,在终端的界面上便显示了这些规则。 4、基于分组矩阵的可视化 基于矩阵的可视化中只能有效处理规则数较少的可视化,因为大的规则集通常也有大量LHS/RHS(左边的集合/右边的集合)的限制。在这里,我们引入一个新的可视化技术,通过使用聚类方法将规则分组,可提高基于矩阵的可视化。 一个直接的方法来聚类频繁项集,便是定义两个项集(Xi和Xj )之间的距离。一个比较好的选择是使用Jaccard dist

文档评论(0)

挑战不可能 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档