数据挖掘与知识发现(讲稿关联规则挖掘技术).docVIP

数据挖掘与知识发现(讲稿关联规则挖掘技术).doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与知识发现(讲稿关联规则挖掘技术)

第5章 关联规则挖掘技术 关联规则概念是由Agrawal、Imielinsk和Swami等人于1993年提出的,用于挖掘顾客数据库中项集间的关联规则问题。其核心方法是基于频集理论的递推方法。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。 关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用商品货架设计、货存安排以及根据购买模式对用户进行分类。 问题:“什么商品组或集合顾客多半会在一次购物中同时购买?” 购物篮分析:设全域为商店出售的商品的集合(即项目全集),一次购物购买(即事务)的商品为项目全集的子集,若每种商品用一个布尔变量表示该商品的有无,则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则描述。 〖例〗购买计算机与购买财务管理软件的关联规则可表示为: computer financial_management_softwar [support=2%,confidence=60%] support为支持度,confidence为置信度。 该规则表示:在所分析的全部事务中,有2%的事务同时购买计算机和财务管理软件;在购买计算机的顾客中60%也购买财务管理软件。 5.1 关联规则的概念 关联(Associations)分析的目的是为了挖掘隐藏在数据间的相互关系,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性。 项目之间的相关性用关联规则来描述,关联规则反映了一组数据项之间的密切程度或关系。 关联规则发现的主要对象是事务数据库,其中针对的应用是售货数据,也称货篮数据。如,超市前端收款机中就收集存储了大量的数据。一般情况下,一个事务(记录)由如下几部分组成:事务处理时间、顾客购买的物品、物品的数量及金额,以及顾客的标识号(如信用卡号)等。 定义:设是一组物品集,是一组事务集。中的每个事务T是一组物品,。假设有一个物品集A,一个事务T,如果,则称事务T支持物品集A。 关联规则的描述是如下形式的一种蕴含: 或 其中A、B是两组物品,且。 记--表示事务中出现物品集A的概率。 一个关联规则的属性通常采用如下的四个参数描述: 1)可信度(Confidence) 设中支持物品集A的事务中,有c%的事务同时也支持物品集B,则称c%为关联规则的可信度。简单的说,可信度就是指在出现了物品集A的事务中,物品集B也同时出现的概率有多大。计算公式为:。如,购买面包A的顾客中有70%的人购买了黄油B,则其可信度为70%。 2)支持度(Support) 设中有s%的事务同时支持物品集A和B,则称s%为关联规则的支持度。支持度描述了A和B这两个物品集并集C在所有事务中出现的概率有多大。计算公式为: 。 如,某天共有1000个顾客到商场购物,其中有100个顾客同时购买了面包和黄油,则关联规则的支持度为10%。 3)期望可信度(Expected confidence) 设中有e%的事务支持物品集B,则称e%为关联规则的期望可信度。期望可信度描述了在没有任何条件影响时,物品集B在所有事务中出现的概率有多大。计算公式为:。如,某天共有1000个顾客到商场购物,其中有200个顾客购买了黄油,则上述的关联规则期望可信度为20%。 4)作用度(Lift) 作用度是可信度与期望可信度的比值。作用度描述物品集A的出现对物品集B的出现有多大影响。计算公式为:。如,上述例中的作用度为70%/20%=3.5。 由此知,可信度是对关联规则的准确度的衡量;支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。 有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。 作用度描述了物品集A对物品集B的影响力的大小。作用度越大,说明物品集B受物品集A的的影响越大。一般情况,有用的关联规则的作用度均是大于1的。 5.2关联规则的分类 (1)基于规则中处理的变量的类别 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则:如果规则考虑的关联是项“在”或“不在”,则关联规则是布尔型的。例如,由购物篮分析得出的关联规则。 量化型关联规则:如果描述的是量化的项或属性之间的关联,则该规则是量化型的关联规则。例如,以下是量化型关联规则的一个例子(其中X为表示顾客的变量,量化属性age 和income已经离散化): age(X,“30…39”)∧income(“42K…48K”) buys(X,“high

文档评论(0)

ipad0d + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档