模式识别(李春权)第3章 概率密度估计.pptVIP

模式识别(李春权)第3章 概率密度估计.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(C) Vipin Kumar, CSci 5980 Data Mining, Spring 2004 (C) Vipin Kumar, Parallel Issues in Data Mining, VECPAR 2002 模式识别:概率密度函数的估计 目录 3.1引言 3.2参数估计 3.3非参数估计 3.1 引言 先验概率 先验概率的估计: 用训练数据中各类出现的频率估计 经验 类条件概率分布估计的方法 离散 连续 混杂:离散、连续 类条件概率密度估计的方法 类条件概率密度估计的两种主要方法: 参数估计:概率密度函数的形式已知,而参数未知,通过训练数据来估计 最大似然估计 非参数估计:密度函数的形式未知,利用训练数据直接对概率密度进行估计 Parzen窗法 kn-近邻法 目录 3.1引言 3.2参数估计 3.3非参数估计 3.2.1 最大似然估计 Maximum Likelihood (ML) 极大似然原理的直观想法是:一个随机试验如有若干个可能的结果A,B,C,…。若在一次试验中,结果A 出现,则一般认为试验条件对A 出现有利,也即A 出现的概率很大 样本集可按类别分开,不同类别的密度函数的参数分别用各类的样本集来训练。 概率密度函数的形式已知,参数未知,为了描述概率密度函数p(x|ωi)与参数θ的依赖关系,用p(x|ωi ,θ)表示。 最大似然估计 似然函数: 计算方法 最大似然估计量使似然函数梯度为0 : 一元正态分布均值和方差的估计 一元正态分布均值和方差的估计 多元正态分布参数最大似然估计 例题: 已知四个样本和三个属性构成的数据矩阵。使用最大似然估计获得均值向量和协方差矩阵。 解:cov函数计算样本协方差 最大似然估计的协方差矩阵(3/4)*cov(y) [,1] [,2] [,3] [1,] 1.25 1.25 1.25 [2,] 1.25 1.25 1.25 [3,] 1.25 1.25 1.25 目录 3.1引言 3.2参数估计 3.3非参数估计 3.3 非参数估计 非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。 两种主要方法: Parzen窗法 kN-近邻法 基本方法 设样本集为D={x1,x2,x3},每个样本xi对以它为中心,宽度为h的范围内分布的贡献为a,要想估计p(x),可以把每个样本点的贡献相加近似作为这点的密度,对任意点都这样做,则得到分布p(x)。当N足够大时,将有好的估计效果。 我们也可以认为每个样本对自己所在位置的分布贡献最大,而离得越远,则贡献越小。所以表示为在样本xi处对分布贡献最大,而往两边越来越小的函数形式。 理论依据 如果有N个样本x1,…,xN是从p(x)的总体中独立抽取的,则N个样本中有k个落入区域R中的概率Pk等于二项分布: 当 时,Pk的值最大。可取 两种主要方法:Parzen窗法和kN-近邻法 Parzen窗法 固定体积(例如: ),计算落入区域的样本数k kN-近邻法 固定落入区域样本数k(例如: ),计算落入k个样本需要的体积V 参数估计和非参数估计的使用范围 非参数估计: (1)样本数量非常充足。 (2)样本的分布形式未知。 参数估计: 贝叶斯------ (1)样本数量非常充足或很充足。 (2)样本的分布形式已知。 朴素贝叶斯------ (1)样本数量非常充足、很充足或充足。 (2)样本的分布形式已知。 (3)属性之间近似独立。 习题 类条件概率密度估计的两种主要方法_________和_________。 类条件概率密度估计的非参数估计有两种主要的方法_________和_________。它们的基本原理都是基于样本对分布的_________原则。 如果有N个样本,可以计算样本邻域的体积V,然后获得V中的样本数k,那么P(x)=_________。 假设正常细胞和癌细胞的样本的类条件概率服从多元正态分布 ,使用最大似然估计方法,对概率密度的参数估计的结果为__________。 证明:使用最大似然估计方法,对一元正态概率密度的参数估计的结果如下: 例题: 已知5个样本和2个属性构成的数据集中,w1类有3个样本,w2类有两个样本。如果使用贝叶斯方法设计分类器,需要获得各类样本的条件概率分布,现假设样本服从多元正态分布 ,则只需获得分布的参数均值向量和协方差矩阵即可,那么采用最大似然估计获得的w1类的类条件概率密度均值向量为

文档评论(0)

1243595614 + 关注
实名认证
文档贡献者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档