- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关联规则挖掘r概述.doc
R语言关联规则可视化:扩展包arulesViz的介绍
关联规则挖掘是一种流行的数据挖掘方法,在R语言中为扩展包arules。然而,挖掘关联规则往往导致非常多的规则,使分析师需要通过查询所有的规则才能发现有趣的规则。通过手动筛选大量的规则集是费时费力。在本文中,我们基于探索关联规则的R扩展包arulesViz,提出几个已知的和新颖的可视化技术。
1、简介
算法步骤这里不做详细介绍,下面是几个重要的变量的定义:
Supp(X=Y) = P(X)
Conf(X=Y) = P(Y|X) 置信度
Lift(X=Y) = CONF(X=Y)/SUPP(Y) = P(X and Y)/(P(X)P(Y)) 提升度
(Lift)是避免了一些不平衡数据标签的偏差性,?Lift越大,则数据质量较好;Lift越小,则数据越不平衡。
2、数据准备和arulesViz的统一接口
使用扩展包arulesViz之前,我们首先需要加载它。这个包会自动加载其他所需要的数据包,如arules。如下面的数据集Groceries包含在arules包里面。
library(arulesViz)
data(Groceries)
summary(Groceries)
设置支持度为0.001,置信度为0.5,R语句入下:
?rules - apriori(Groceries, parameter = list(support = 0.001, confidence = 0.5))
rules
set of 5668 rules
结果共找出了5668条规则。按照Lift降序排,最大的三条规则如下:
inspect(head(sort(rules, by = lift), 3))
lhs rhs support confidence lift
1 {Instant food products,
soda} = {hamburger meat} 0.001220132 0.6315789 18.99565
2 {soda,
popcorn} = {salty snack} 0.001220132 0.6315789 16.69779
3 {flour,
baking powder} = {sugar} 0.001016777 0.5555556 16.40807
3、散点图
直接用plot画出散点图
plot(rules)
图1
从图1可以看到高lift对应低supp。另外一些科学家认为最有意思的规则在supp/conf的边沿上,如图1所示。
head(quality(rules))
support confidence lift
1 0.001118454 0.7333333 2.870009
2 0.001220132 0.5217391 2.836542
3 0.001321810 0.5909091 2.312611
4 0.001321810 0.5652174 2.212062
5 0.001321810 0.5200000 2.035097
6 0.003660397 0.6428571 2.515917
如果我们想个性化plot图中的坐标的特征,将颜色表示conf,lift为纵标轴,如下所示。
图2
plot(rules, measure = c(support, lift), shading = confidence)
图2中的y轴是lift,这里可以比较清晰地看出很多的规则都有高lift。
图3
plot(rules, shading = order, control = list(main = Two-key plot))
图3中,supp为x轴,conf为y轴,颜色的深浅表示“order”,例如规则里频繁项的个数。从图中可以看出,order和supp有着很强的负相关性。这在关联规则中也是熟知的。
散点图方法提供了互动功能的选择和缩放,可以使用interactive=TRUE来实现。
图4
sel - plot(rules, measure = c(support, lift), shading = confidence,
+ interactive = TRUE)
图4中选择了lift较高的几个点,并且使用inspect按钮,在终端的界面上便显示了这些规则。
4、基于分组矩阵的可视化
基于矩阵的可视化中只能有效处理规则数较少的可视化,因为大的规则集通常也有大量LHS/RHS(左边的集合/右边的集合)的限制。在这里,我们引入一个新的可视化技术,通过使用聚类方法将规则分组,可提高基于矩阵的可视化。
一个直接的方法来聚类频繁项集,便是定义两个项集(Xi和Xj )之间的距离。一个比较好的选择是使用Jaccard dist
您可能关注的文档
- 公交车报站系统的设计概述.doc
- 公交车的自动报站系统设计概述.doc
- 公交车论文印概述.doc
- 公交车语音报站系统___毕业论文概述.doc
- 公交车语音报站系统的设计概述.doc
- 公众演说技巧概述.doc
- 公允价值在我国上市公司的应用研究概述.doc
- 公共—会计核算办法试题汇总1概述.doc
- 公共关系在现代企业管理中的应用概述.doc
- 公共关系学客观题概述.doc
- 2024年石油炼化企业消防系统升级合同2篇.docx
- 统计学期末考试题库:2025年误差控制与调查数据质量评估试题.pdf
- 2025年资产评估师职业资格考试真题卷:资产评估师职业资格考试备考资料试题.pdf
- 2025年自然灾害安全防范培训考试试题库与答案解析.pdf
- 消防执业资格考试题库(消防监督检查要点):法律法规解析与应用试题.pdf
- 高压电工考试必备:2025年高压设备维护保养计划与保养成本控制试题.pdf
- 2025年专升本艺术概论模拟试卷:艺术市场与文化产业市场调查与分析试题.pdf
- 2025年专升本艺术概论考试模拟卷:艺术审美心理在艺术市场中的作用试题.pdf
- 2025年专升本艺术概论考试模拟卷:艺术流派对比分析高分技巧.pdf
- 2024年草原生态放牧保护合同.docx
最近下载
- 基于51单片机多功能音乐播放器的设计.doc VIP
- 机房巡检记录表-.xlsx VIP
- GB_T 9286-2021色漆和清漆 划格试验.docx VIP
- 小学“双减”作业设计:小学英语五年级下册“U4 When is the art show ”单元作业设计优秀案例.pdf
- 基于单片机多功能音乐播放器的设计.pdf VIP
- 2025应急管理部所属18家事业单位社会招聘模拟试卷含答案解析.docx VIP
- 《大学生就业指导》高职全套教学课件.pptx
- 人教版小学美术二年级下册《蔬果变变变》课件.ppt
- 色漆和清漆-涂层老化的评级方法7.7.pptx VIP
- 北京大学初党练习试题附答案.doc VIP
文档评论(0)