数据挖掘9.1-9.2解析.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘9.1-9.2解析

* * * * 数据挖掘 第9章 分类:高级分类 * 目录 9.1 贝叶斯信念网络 9.2 用后向传播分类 * 9.1 贝叶斯信念网络 朴素贝叶斯分类:假定一个属性值在给定类上的影响独立于其他属性的值。 贝叶斯信念网络(简称信念网络):说明联合条件概率分布,它允许在变量的子集间定义类条件独立性。它提供一种因果关系的图形模型,练后的贝叶斯信念网络可以用于分类。 本质区别:类条件独立 * 信念网络有两个成分定义:有向无环图和条件概率表集(CPT)。 有向无环图的每个节点代表一个随机变量,每条弧线代表一个概率依赖。 若一条弧由节点X到Z,则X是Z的双亲或直接前驱,而Z是X的后代。给定其双亲,每个变量条件独立于图中它的非后代。 X和Y是Z的双亲,而P是Y的后代。不是X的后代,即 Z 条件独立于 P。 9.1.1 概念和机制 * 数据挖掘:概念与技术 * LungCancer FamilyHistory PositiveXRay smoker Emphysema Dyspnea 图为一个6个布尔变量的简单信念网络。由图知,肺癌患者受其家族肺癌史和是否吸烟的影响。若已知患者得了肺癌,变量PositiveXRay独立于该患者是否具有家族肺癌史,也独立于他是否吸烟。换言之,一旦我们知道变量LungCancer的结果,那么变量FamilyHistory和smoker就不再提供关于PositiveXRay的任何附加信息。这些弧还表明:给定其双亲FamilyHistory和smoker,变量LungCancer条件独立于Emphysema。 * 数据挖掘:概念与技术 * 下表为变量LungCancer的CPT,给出其双亲节点FamilyHistory和 Smoker的每个可能值组合的条件概率。 例如左上角和右下角的表目分别代表: P(LungCancer=yes|FamilyHistory=yes,Smoker=yes)=0.8 P(LungCancer=no|FamilyHistory=no,Smoker=no)=0.9 FH,S FH,-S -FH,S -FH,-S LC 0.8 0.5 0.7 0.1 -LC 0.2 0.5 0.3 0.9 * 数据挖掘:概念与技术 * 给定其双亲,每个变量都条件独立于图中它的非后代,则贝叶斯信念 网络给定的变量集合上的联合条件概率分布为: 其中, 是X的值的特定组合的概率, 的值对应于Yi的CPT的表目。 分类过程不是返回单个类标号,而是可以返回概率分布,给出每个类的概率。 * 在训练网络时,网络的变量是可观测的或隐藏的。 1.给定可观测变量,存在一些学习算法,从训练数据学习网络拓扑。 2.网络拓扑已知并且变量可观测,则训练网络是直接的。该过程由计算CPT表目组成。 3.网络拓扑给定,而某些变量是隐藏的,可以选择不同的方法训练信念网络。梯度下降法。 9.1.2 训练贝叶斯信念网络 目的:获得各个状态之间的相关概率,得到最佳的网络拓扑结构。 * 设D是数据元组X1,X2,…,XD的训练集。训练信念网络我们必须学习CPT表目的值。设wijk是具有双亲Ui=uik的变量Yi=yij的CPT的表目,其中wijk=P(Yi=yij|Ui=uik)。wijk可以看做权重,其集合记作W。这些权重被初始化为随机概率值。梯度下降策略执行贪心爬山法,在每次迭代或每一步,算法向当时看上去是最优解的方向移动而不回溯。每次迭代都更新权重,最终收敛于一个局部最优解。 假定wijk的每种可能设置都是等可能的,梯度下降策略用于有哪些信誉好的足球投注网站能最好的对数据建模的wijk值,这种策略是迭代的,他沿着准则函数的负方向有哪些信誉好的足球投注网站解。我们要找到最大化该函数的权重的集合W。 FH,S FH,-S -FH,S -FH,-S LC 0.8 0.5 0.7 0.1 -LC 0.2 0.5 0.3 0.9 * 我们最大化 。通过按 的梯度来做,使得问题更简单。给定网络的wijk的初值,计算按下步骤计算: 1)梯度计算:对每个i,j,k,计算 右端的概率要对D中的每个训练元组Xd计算。当Yi和Ui表示的变 量对某个Xd是隐藏的时,对应的概率可由贝叶斯网络推理的标准算法,由元组的观察变量计算。 2)沿梯度方向前进一小步:可由式 更新权重。其中,l是步长的学习率,被设置为一个小常数,有助于收敛。 3)重新规格化权重:由于

文档评论(0)

441113422 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档