最大似然与估计和贝叶斯参数估计 .ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最大似然与估计和贝叶斯参数估计

Chapter 3: 最大似然估计和贝叶斯参数估计 贝叶斯框架下的数据收集 在以下条件下我们可以设计一个可选择的分类器 : P(?i) (先验) P(x | ?i) (类条件密度) 不幸的是,我们极少能够完整的得到这些信息! 从一个传统的样本中设计一个分类器 先验估计不成问题 对类条件密度的估计存在两个问题:1)样本对于类条件估计太少了;2) 特征空间维数太大了,计算复杂度太高。 如果可以将类条件密度参数化,则可以显著降低难度。 例如:P(x | ?i)的正态性 P(x | ?i) ~ N( ?i, ?i) 用两个参数表示 将概率密度估计问题转化为参数估计问题。 估计 最大似然估计 (ML) 和贝叶斯估计; 结果通常很接近, 但是方法本质是不同的。 最大似然估计将参数看作是确定的量,只是其值是未知! 通过最大化所观察的样本概率得到最优的参数—用分析方法。 贝叶斯方法把参数当成服从某种先验概率分布的随机变量,对样本进行观测的过程,就是把先验概率密度转化成为后验概率密度,使得对于每个新样本,后验概率密度函数在待估参数的真实值附近形成最大尖峰。 在这两种方法中,我们都用后验概率P(?i | x)表示分类准则! 当样本数目增加时,收敛性质会更好; 比其他可选择的技术更加简单 。 假设有c类样本,并且 1)每个样本集的样本都是独立同分布的随机变量; 2)P(x | ?j) 形式已知但参数未知,例如P(x | ?j) ~ N( ?j, ?j); 3)记 P(x | ?j) ? P (x | ?j, ?j),其中 使用训练样本提供的信息估计 ? = (?1, ?2, …, ?c), 每个 ?i (i = 1, 2, …, c) 只和每一类相关 。 假定D包括n个样本, x1, x2,…, xn ?的最大似然估计是通过定义最大化P(D | ?)的值 “?值与实际观察中的训练样本最相符” 最优估计 令? = (?1, ?2, …, ?p)t 并令 ?? 为梯度算子 the gradient operator 我们定义 l(?) 为对数似然函数:l(?) = ln P(D | ?) 新问题陈述: 求解 ? 为使对数似然最大的值 对数似然函数l(?)显然是依赖于样本集D, 有: 最优求解条件如下: P(xk | ?) ~ N(?, ?) (样本从一组多变量正态分布中提取) 这里 ? = ?,因此: ?的最大似然估计必须满足: 乘 ? 并且重新排序, 我们得到: 即训练样本的算术平均值! 结论: 如果P(xk | ?j) (j = 1, 2, …, c)被假定为d维特征空间中的高斯分布; 然后我们能够估计向量 ? = (?1, ?2, …, ?c)t 从而得到最优分类! 未知 ? 和 ?,对于单样本xk ? = (?1, ?2) = (?, ?2) 对于全部样本,最后得到: 联合公式 (1) 和 (2), 得到如下结果: ?2的最大似然估计是有偏的 (渐进无偏估计) ?的一个基本的无偏估计是: 在最大似然估计中 ? 被假定为固定值 在贝叶斯估计中 ? 是随机变量 目标: 计算 P(?i | x, D) 假设样本为D,贝叶斯方程可以写成 : 先验概率通常可以事先获得,因此 每个样本只依赖于所属的类,有: 假设 的形式已知, 参数?的值未知,因此条件概率密度 是知道的; 假设参数?是随机变量,先验概率密度函数p(?)已知,利用贝叶斯公式可以计算后验概率密度函数p(? | D) ; 希望后验概率密度函数p(? | D) 在?的真实值附件有非常显著的尖峰,则可以使用后验密度p(? | D) 估计 ? ; 注意到 单变量情形的 p(? | D) 复制密度 结论: 多变量情形: 多变量学习 递归贝叶斯学习 例1:递归贝叶斯学习 例1:递归贝叶斯学习 例1: Bayes vs. ML 唯一性问题 p(x|q) 是唯一的: 后验概率序列 p(q|Dn) 收敛到 delta 函数; 只要训练样本足够多,则 p(x|q) 能唯一确定q 。 在某些情况下,不同 q 值会产生同一个 p(x|q) 。 p(q|Dn) 将在 q 附近产生峰值,这时不管p(x|q) 是否唯一, p(x|Dn)总会收敛到p(x) 。 因此不确定性客观存在。 最大似然估计和贝叶斯参数估计的区别 最大似然估计 贝叶斯参数估计 计算复杂度

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档