- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则格渐进式维护算法
关联规则格渐进式维护算法
【 摘 要 】 关联规则发现作为数据挖掘中核心任务之一,已经得到了广泛的研究。由二元关系导出的概念格是一种非常有用的形式化工具,适于发现数据中潜在的概念。在分析了概念格和关联规则之间的关系的基础上,根据需要对概念格结构——关联规则格进行了修改,同时,采用了带头尾指针的链表作为整体的数据结构,从而提出了基于关联规则格的关联规则渐进式维护算法。该算法可以根据预先给定的置信度∮,在渐进式增加和删除节点时,动态更新关联规则。
【 关键词 】 关联规则格;链表;维护;渐进式;置信度
1 引言
概念格是1982年由R.Wille等根据二元关系提出的一种概念层次结构。它本质上描述了对象和属性之间的联系,表明了概念间的泛化与例化关系。经过三十多年的发展,概念作为形式概念分析理论中一种核心的数据结构,已广泛地应用于软件工程、知识工程、信息检索等领域。
在数据库的知识发现中,关联规则是很有价值的一类规律,指的是形如A=B的表达式,其中A和B为特征集合。在挖掘规则知识的过程中,规则本身是用内涵集之间的关系来描述的,而体现于相应外延集之间的包含(或近似包含)关系。由于概念格节点反映了概念内涵和外延的统一,节点间关系体现了概念之间的泛化和例化关系,因此非常适合作为规则发现的基础性数据结构。
利用概念格提取关联规则是概念格应用中比较成功的一个方面。但之前大多数算法都是将概念格的构建和关联规则的提取过程分开实现,这样就不能随着数据库的渐增实现关联规则的更新。文献[6-11]中的算法只是针对概念格的建立;文献[12,13]基于量化概念格实现了关联规则的渐进更新,但未实现删除节点算法,且增加节点算法采用类Godin算法。
2 基本定义
2.1 关联规则
关联规则可以用下面数学模型描述:
字母集I={i1,i2,…,im}称为数据项集,一般把一些数据项的集合称作项目集,A是全体事务的集合,事务T是I的一个子集,即T?I,每个事务由唯一的标志TID。
关联规则具有如下形式:X=Y,其中X?I,Y?I且X∩Y=? ,X称为规则的条件,Y称为规则的结果。若某记录中包含X,Y,则该记录满足规则X=Y。对于X?I,如果A中包含X的记录数为s,则X的支持度support(X)= s。置信度(Confidence)表示规则的强度,定义为:
confidence(X=Y)=
定义1 如果一个项集的支持度大于等于给定的支持度门限θ,则称该项集是频繁项集。同样要求一个项集的置信度应该大于给定的置信度门限∮。
关联规则根据置信度的不同可分为精确关联规则和近似关联规则。精确关联规则的置信度为100%,近似关联规则的置信度小于100%,用户也可以自行定义置信度。
定义2 规则r:l1→l2是最小无冗余关联规则,当且仅当不存在规则r’:l’1→l’2,使support(r)=support(r’),confidence(r)=confidence(r’),且l’1?l1,l2?l’2。
在关联规则的算法中,其挖掘的过程通常被分解为两步:①首先要找出频繁数据项集(Frequent Itemsets),即支持度大于给定阙值θ的数据项集;②利用频繁数据项集,生成候选的布尔型关联规则。
2.2 关联规则格
在频繁项集中存在一些交易集TID相同的项集,他们的集合称为同交易集的频繁项集集合(Set of Frequent Itemset with the Same Tidset,SFIST),并且每个同交易集的频繁项集中的最大的项集对应于概念格中的一个项集概念。
定义 3 在一个SFIST中有一个频繁项集Y,若不存在另一个频繁项集Y’,满足Y?Y’,则称Y为该SFIST中的最大项集;同理,若不存在另一个频繁项集Y’,满足Y’?Y,则称Y为该SFIST中的最小项集。
对于频繁封闭项集格的概念节点C=(g(Y),Y),若取X为Y所对应的SFIST中的最小项集,由于X、Y具有相同的支持度,则由项集X、Y导出的规则X=Y-X一定是一个最小无冗余精确规则;若节点C的直接子节点为C’=(g(Y’),Y’),则由项集X、Y’导出的规则X=Y’-X一定是一个最小无冗余近似规则。
SFIST中的最小项集集合称为SLIT,每个格节点都对应一个最小项集集合SLIT。因此,提取最小无冗余规则的关键就是获取每个节点所对应的最小项集集合。
根据上述描述,我们定义格结构如下:intension用来存储节点的内涵集;extension用来存储节点的外延集;ext_num用来存储节点的外延数目,方便于计算置信度;SLIT用来存放最小项集集合;RULES用来存放关联规则及每
文档评论(0)