关联关系(一).pptVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联关系(一)

清华大学出版社 第2章 基本数据挖掘技术 之 二 关联规则 2.2 关联规则 关联分析(Association?Analysis) 关联分析是发现事物之间关联关系(Associations)的分析过程。 典型应用——就是购物篮分析(Market?Basket?Analysis)。 购物篮分析 确定顾客在一次购物中可能一起购买的商品,发现其购物篮中不同商品之间的联系,分析顾客的购买习惯,从而发现购买行为之间的关联。 关联关系以一组特殊的规则形式出现——关联规则(Association Rules) * 第*页,共15页 2.2.1 关联规则概述 一般表现为蕴涵式规则形式:X→Y。 其中—— X和Y分别称为关联规则的前提或先导条件(Antecedent)和结果或后继(Consequent)。 关联规则与产生式规则有两点不同 (1)在某条关联规则中以前提条件出现的属性可以出现在下一条关联规则的结果中。 (2)传统的用于分类的产生式规则的结果中仅能有一个属性,而关联规则中则允许其结果包含一个或多个属性。 * 第*页,共15页 【例2.4】 根据顾客实际购买行为数据(表2.3,值为1表示购买了该种商品;值为0表示未购买该种商品),分析顾客在网络购物中购买图书、运动鞋、耳机、DVD和果汁五种商品时,是否存在购买行为上的关联。 表2.3 网络购物交易记录表 序号 Book Sneaker Earphone DVD Juice 1 1 1 1 1 1 2 1 1 1 1 0 3 0 1 1 0 0 4 0 1 0 1 1 5 0 0 1 1 0 6 1 0 1 1 0 7 1 0 1 1 1 8 0 1 0 1 1 9 0 0 1 1 1 10 1 0 0 0 1 * 第*页,共15页 表2.3 网络购物交易记录表 置信度(Confidence)和支持度(Support) 若得到4条关联关系 (1)如果顾客购买了Sneaker(运动鞋),那么他们也会购买Earphone(耳机)。 (2)如果顾客购买了Book(图书),那么他们也会购买Juice(果汁)。 (3)如果顾客购买了Book(图书)和DVD,那么他们也会购买Earphone(耳机)。 (4)如果顾客购买了Book(图书)、Sneaker(运动鞋)和Earphone(耳机),那么他们也会购买DVD。 使用置信度度量每个关联规则在前提条件下结果发生的可能性。 关联关系(1)的置信度为:3/5 = 60%。 使用支持度度量包含了关联关系中出现的属性值的交易占所有交易的百分比。 关联关系(1)的支持度为:3/10 = 30% 关联分析过程中设置置信度和支持度的阈值,当得到的关联关系达到置信度和支持度的阈值时,这样的关联关系被认为是有趣的,而保留下来应用到实际问题中。 * 第*页,共15页 2.2.2 关联分析 1993年,阿戈沃(Agrawal)等人提出了著名的关联分析算法——Apriori算法。 Apriori算法的基本思想 (1)生成条目集(Item Sets)。条目集是符合一定的支持度要求的“属性-值”的组合。那些不符合支持度要求的“属性-值”组合被丢弃,因此,规则的生成过程可以在合理的时间内完成。 (2)使用生成的条目集创建一组关联规则。 * 第*页,共15页 【例2.5】 将表2.3作为数据集,使用Apriori算法进行关联分析,产生描述网络购买行为的关联规则。 步骤 (1)设置支持度阈值为50%,创建第一个条目集表,包含单项条目。 * 第*页,共15页 条目集 条目个数 符合支持度要求 结果 Book = 1 5 Yes 保留 Sneaker = 1 5 Yes 保留 Earphone = 1 7 Yes 保留 DVD = 1 8 Yes 保留 Juice = 1 6 Yes 保留 Book = 0 5 Yes 保留 Sneaker = 0 5 Yes 保留 Earphone = 0 3 No 删除 DVD = 0 2 No 删除 Juice = 0 4 No 删除 表2.4 网络购物行为关联分析条目表1 步骤 (2)设置支持度阈值为40%,创建第二个条目集表,包含双项条目 * 第*页,共15页 条目集 条目个数 符合支持度要求 结果 Book =1 Earphone = 1 4 Yes 保留 Book =1 DVD = 1 4 Yes 保留 Book =0 DVD = 1 4 Yes 保留 Sneaker =1 DVD = 1 4 Yes 保留 Sneaker =0 Earphone = 1 4 Yes 保留 Sneaker =0 DVD = 1 4 Yes 保留 Earphone = 1 DVD = 1 6 Yes 保留 DVD = 1 Juice

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档