- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
发掘多值属性的关联则规
发掘多值属性的关联规则张朝晖 陆玉昌 张 钹(清华大学计算机科学与技术系 北京 100084)(清华大学智能技术与系统国家重点实验室 北京 100084摘要 属性值可以取布尔量或多值量.从以布尔量描述的数据中发掘关联规则已经有比较成熟的系统和方法,而对于多值量则不然.将多值量的数据转化为布尔型的数据是一条方便、有效的途径.提出一种算法,根据数据本身的情况决定多值量的划分,进而将划分后的区段映射为布尔量,在此基础上可发掘容易理解且具有概括性的、有效的关联规则.关 键 词 数据采掘,关联规则,聚类算法.中图法分类号 TP311 当今世界,数据每天都在迅猛地增长.据估计,全世界的信息量每20个月翻一番.人们保存如此大量的数据,一是因为计算机技术的发展使之变得方便可行,二是因为这些数据有巨大的潜在作用.然而,如何有效地使用这些数据却成为一个问题,因为常常是数据丰富而知识缺乏,利用当前的数据库技术并不能很好地发挥这些数据的作用.数据采掘(Data Mining)是数据库中知识发现KDD(knowledge discovery in databases)的核心,它为大量数据的利用提供了有效的工具.自从1989年第1届KDD专题研讨会举办以来,数据采掘的研究方兴未艾.从1995年开始,每年举办一次的KDD国际会议,将KDD方面的研究推向了高潮.KDD可以定义如下[1]:从数据中得出新的、有效的、有潜在用途的、可理解的模式的非平凡过程.关联规则[2]是当前数据采掘研究的主要模式之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系.下面是一个直观的关联规则的例子:在计算机配件商店中,70%的包含键盘的交易中包含鼠标,在所有交易中,有6%同时包含这两种物品.规则表示为
键盘鼠标 (可信度70%,支持度6%)
关联规则可以分为两种:布尔型关联规则和多值关联规则.[3]许多文献[2,5~8]都讨论了发掘布尔型关联规则问题[4]BARP(Boolean association rules problem),它可以看作是发掘多值关联规则问题QARP(quantitative association rules problem)的基础和特例,是在属性值为布尔量的关系表中寻找属性值为“1”的属性之间的关系.多值属性可分为数量属性(Quantitative Attribute),如年龄、价格等;类别属性(Categorical Attribute),如品牌、制造商等.QARP比较复杂,一种自然的想法是将它转换为BARP.当全部属性的取值数量都是有限的时候,只需将每个属性值映射为一个布尔型属性即可.当属性的取值范围很宽时,则需将其分为若干区段,然后将每个区段映射为一个布尔型属性.于是,如何划分区段是实现QARP到BARP转变的关键.这里面有两个互相牵制的问题:当区段的范围太窄时,则可能使每个区段对应的属性的支持度很低,而出现“最小支持度问题”;当区段的范围太宽时,则可能使每个区段对应的属性的可信度很低,而出现“最小可信度问题”.一种简单直观的方法是将属性值区域相等地划分成区段[3],但这种方法得出的划分不能很好地表示数据的分布,特别是当属性值分布不均匀的时候.本文提出一种聚类算法,根据数据库中数据的分布情况决定属性值如何划分区段,并可将相关的区段进行合并.在此基础上发掘得到的多值关联规则可具有有效性和可理解性.1 关联规则从数据库中发掘的规则可以有以下几种:特征规则、区分规则、聚类规则、关联规则和进化规则等.关联规则是比较新的一种,由R.Agrawal于1993年提出.[2]令I={i1,i2,i3,...,im}为项的集合,D称为交易的集合,D中每个交易T为项的集合,即TI.定义1. 如果对于I中一些项的集合X有XT,则称T包含X.定义2. 一条关联规则是如下形式的蕴涵式XY,这里,XI,YI且X∩Y=void.规则XY在交易集合D中成立,如果D中有s%的交易包含X∪Y,且D中有c%的包含X的交易也包含Y.这里,s称为支持度,c称为可信度.定义3. 发掘关联规则问题就是在给定的交易集合D中产生所有满足最小支持度(MinSupp)和最小可信度(MinConf)的关联规则的过程.发掘关联规则问题可以分为两个子问题.(1) 寻找所有这样的项的集合(Itemsets),它们的支持度超过用户给定的最小支持度.这个项的集合称为频繁集(Frequent Itemset).(2) 应用频繁集产生规则.一般的想法是,如果ABCD和AB是频繁集,那么,可以通过计算可信度conf=supp(ABCD)/supp(AB)来确定规则AB-CD是否成立.当可信度conf≥最小可信度时,规则
文档评论(0)