置信度度量的缺陷和改进.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
置信度度量的缺陷和改进

数据挖掘导论论文 置信度度量的缺陷和改进 摘要:置信度通过确定Y在包含X的事务中出现的频繁度,从而确定Y和X是否相关联。可是这种度量方式也存在着局限性,我们可以通过引入兴趣度/提升度来消除置信度存在的不足。但单独引入提升度也会对某些模型做出错误的评估,这就需要我们通过不断的对比,找出该模型对应的最好度量。 关键词:置信度 提升度 兴趣因子 IS度量 置信度度量的作用:置信度度量通过规则进行推行具有可靠性。对于给定的规则X→Y,置信度越高,Y在包含X的事务中出现的可能性就越大。置信度也可以估计Y在给定X下的条件概率。 如: 网球拍 网球 1 1 1 2 1 1 3 1 0 4 1 0 5 0 1 6 1 1 事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度(X^Y)/D=0.5,置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。 揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了我们对100人做度量,发现有20人茶,其中有15人喝咖啡,5人不,那么我们通过置信度计算发现(茶咖啡)这个的置信度非常高,我们于是可以推算出的人都咖啡。但是其实我们看接下来的调查,另外不茶的80人中,有人咖啡。综上所述,我们可以发现,其实喝茶和喝咖啡其实是两个独立事件。所以我们可以概括一下,置信度的缺点,就是置信度度量忽略了规则后件中项集的支持度。我们引入提升度(lift),来计算置信度和规则后件项集支持度的比率:lift(AB)=c(AB)s(B),那么对于二元项集来说,我们可以做这样一个变换:lift(XY)=c(XY)/s(Y)=(p(X,Y)/p(X))/p(Y)=p(X,Y)/ p(X)p(Y)那么这里,我们则可以把lift(XY)称为兴趣因子,表示为I(A,B)通过概率学知识我们可以知道,如果X事件和Y事件相互独立(或者我们称之为满足事件独立性假设),那么p(X,Y)p(X)*p(Y),那么我们则可以这样来表示兴趣因子的度量:当I(A,B)=1时,我们称A和B是相互独立的,当I(A,B)1时,我们称A和B是负相关的,否则我们称A和B是正相关的。 但是从计算模型,我们可以很轻易地感觉出单纯用兴趣因子来做关联度度量的不靠谱 从表一得出的数据我们可以知道X,Y是正相关,而表二兴趣因子却将近一,表明了X,Y是相对独立的,可是我们观察得出,有X必有Y,无X必无Y,因此二者应该是相关联的。 R S 20 50 70 50 880 930 70 930 1000 例二: P Q 880 50 930 50 20 70 930 70 1000 {P,Q}和{R,S}的兴趣因子分别为1.02,4.08。这个结果存在着一些问题,P和Q的兴趣因子将近1,从理论上说P和Q是相对独立的,可是它们同时出现的概率是88%,置信度是0.946;而S和R的兴趣因子虽然是4.08,但是它们同时出现的概率只有2%,置信度是28.6%,这表明了{S,R}的关联不及{P,Q}。在这种情况下,置信度可能是一种更好的选择,因为置信度表明P和Q之间的关联94.6%远远强于R和S之间的关联28.6%。 从以上两个例子,说明了提升度也是有很大的缺陷的。对此我们可以再引入IS度量。 IS度量是用于处理非对称二元变量 = 拿例二的例子来说,{P,Q}和{R,S}的IS值分别是0.946和0.286,与兴趣因子给出的结果相反,说明了{P,Q}之间的关联强于{R,S}。 当然,IS度量同样存在着局限性,当评估一对相对独立的项集时,IS=(A,B)===,IS值取决于S(A)和S(B),所以就存在与置信度度量类似的问题,即使是不相关或负相关的模式,度量值也可能很大。 例子表明,某些度量方法对特定的应用效果较好,而对某些模型往往会评估错误,我们在对一个模型进行评估的时候应采用多种度量来比较结果。一个好的度量应具有三个特点: {A,B}=0如果A和B是统计独立的 {A,B}随P(A,B)单调增长而P(A)和P(B)保持不变 {A,B}随P(A)[orP(B)]单调减小而P(A,B)和P(B)[orP(A)]保持不变 参考数据挖掘导论(课本)和老师的课件

文档评论(0)

taotao0c + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档