贝叶斯分类.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
贝叶斯分类.ppt

第四章 统计分类 4.1 贝叶斯分类器 4.2 正态分布的贝叶斯分类 4.3 均值向量和协方差矩阵的参数估计 4.1 贝叶斯分类器 问题的提出 确定性特征 随机特征 一、基本概念 概率密度函数 先验概率P(ωi):先验知识确定的类别总体分布。 贝叶斯公式: 特殊的对于两类情况,贝叶斯判别准则: 贝叶斯准则决定了对每个x都使P(e|x)取最小值,即使平均错误率取得最小值。 对于两类情况:令t是两类的分界面,当x是一维时,即x轴上的一点。 对于两类问题,统计判决的基本方法是根据类的概率和概率密度将模式的待征空间Ω分划成两个子区域Ω1和Ω2,对应的类别分别为ω1、ω2。即: 可能出现的分类错误: 1)实属ω1类的模式判属ω2类,发生这种错误的原因是属于ω1类的模式在特征空间中散布到Ω2中去,从而将其判为属于ω2 类,这种误判概率为: 2)实属ω2类的模式判属ω1类,这种误判概率为: ω1和ω2类出现的概率分别为P(ω1)和P(ω2),则总的误判概率P(e)是: 贝叶斯判决准则使正确概率最大,相当于使误判概率最小。 例2:某区域细胞识别。ω1为正常细胞,ω2为异常细胞,P(ω1)=0.9,P(ω2)=0.1,由类条件概率密度分布曲线查得:p(x|ω1)=0.2,p(x|ω2)=0.4,对未知细胞x分类。 例3: 对一批人进行癌症普查,ω1类代表患癌者,ω2类代表正常人。设试验中患有癌症的概率为0.005。 1. 若任选一人,其患癌症的概率有多大? 2. 若有一化验试验,结果有阴、阳两种。用这一试验对患者诊断,结果以x表示,取值为[阴,阳]。根据以往的临床记录,发现这种试验方法有以下的统计结果:患有癌症的试验反应为阳性的概率为0.95,患有癌症的试验反应为阴性的概率为0.05,正常人试验阳性反应的概率为0.01,正常人试验阴性反应的概率为0.99。若被化验的人具有阳性反应,他患癌症的概率是多大? 三、基于最小风险的贝叶斯分类 在实际工作当中,有时仅考虑错误率最小是不够的。 当考虑到某一类的错误判决要比对于另一类的更为关键时,要引入比错误率更广泛的概念---风险、损失,就需要把最小错误概率的贝叶斯判别作一些修正。 下面从决策论的观点来讨论: 采取的决定称为决策或行动,所有可能采取的行动的集合称为行动空间或决策空间A (分到哪一类) 对于c类情况,采取决策ai时的条件损失或条件风险为: C=2时,即有ω1 、ω2两类: 当分类器将x判别为ω1,即取决策a1时: 例4: 仍以例3中的细胞为例,ω1为正常细胞,ω2为异常细胞,P(ω1)=0.9,P(ω2)=0.1,由类条件概率密度分布曲线查得:p(x|ω1)=0.2,p(x|ω2)=0.4, λ(a1, ω1)=0, λ(a2, ω1)=1,λ(a1, ω2)=6, λ(a2, ω2)= 0。求:x分类结果? 4.3 正态分布模式的贝叶斯分类器 多维正态分布,概率密度函数: 如果观测向量的类条件分布服从正态分布, 舍去与i无关的项,重新定义识别函数: 分情况讨论 上机实验 实验一 最近邻规则的聚类算法 实验要求 编写采用最近邻规则的聚类算法,距离采用欧式距离,阈值可设定。 采用二维特征空间中的10个样本对程序进行验证 x1 = (0,0),x2 = (3,8) x3 = (2,2),x4 = (1,1) x5 = (5,3),x6 = (4,8) x7 = (6,3),x8 = (5,4) x9 = (6,4),x10 = (7,5) 实验二 k-均值聚类算法 实验要求 编写k-均值聚类算法的程序,对下列数据进行聚类。 (0,0),(1,0),(0,1),(1,1),(2,1),(1,2),(2,2),(3,2),(6,6),(7,6),(8,6),(6,7),(7,7),(8,7),(9,7),(7,8),(8,8),(9,8),(8,9),(9,9) * * 问题描述 假定要识别的物理对象x有n个特征x1,x2,… ,xn,记作x=[ x1,x2,…,xn]T,所有的特征向量构成了n维特征空间。假定这些待识别的对象来自c个类别ωi (i=1,2,…,c),并且每个类别出现的先验概率P(ωi)、类条件概率密度p(x|ωi) 及类别c已知。 如果观察到一个样本x,如何合理地对x进行分类? 则称x为连续型随机变量,函数f(x)为x的概率密度函数。 对于连续随机变量X的分布函数F(x),存在非负函数f(x),使对于任意实数x有: 概率密度函数性质: 后验概率P(ωi|x):在得到“结果”的信息后重新修正的概率。 类条件概率密度p(x|ωi):连续随机变量x,其分布取决于类别状态 用已知类别的训练样本来估计类条件概率密度 分析

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档