概率密度估计.docVIP

下载本文档

1
0
约2.4千字
约 5页
2017-02-07 发布于重庆
举报
版权申诉

概率密度估计.doc

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

概率密度估计

1、概率密度函数在分类器设计过程中（尤其是贝叶斯分类器），需要在类的先验概率和类条件概率密度均已知的情况下，按照一定的决策规则确定判别函数和决策面。但是，在实际应用中，类条件概率密度通常是未知的。那么，当先验概率和类条件概率密度都未知或者其中之一未知的情况下，该如何来进行类别判断呢？其实，只要我们能收集到一定数量的样本，根据统计学的知识，可以从样本集来推断总体概率分布。这种估计方法，通常称之为概率密度估计。它是机器学习的基本问题之一，其目的是根据训练样本来确定x ? 2、参数估计参数估计：根据对问题的一般性认识，假设随机变量服从某种分布（例如，正态分布），分布函数的参数可以通过训练数据来估计。参数估计可以分为监督参数估计和非监督参数估计两种。参数估计当中最常用的两种方法是最大似然估计法和贝叶斯估计法。 ? 监督参数估计：样本所属类别及条件总体概率密度的形式已知，表征概率密度的某些参数是未知的。非监督参数估计：已知样本所属的类别，但未知总体概率密度函数的形式，要求推断出概率密度本身。 ? 3 非参数估计：已知样本所属的类别，但未知总体概率密度函数的形式，要求我们直接推断概率密度函数本身。即，不用模型，只利用训练数据本身来对概率密度做估计。非参数估计常用的有直方图法和核方法两种；其中，核方法又分为PazenKN近领法两种。概率密度估计--参数估计与非参数估计我们观测世界，得到了一些数据，我们要从这些数据里面去找出规律来认识世界，一般来说，在概率上我们有一个一般性的操作步骤 ? 1. 观测样本的存在 2. 每个样本之间是独立的 3. 所有样本符合一个概率模型 ? 我们最终想要得到的是一个概率密度的模型，有了概率密度模型以后，我们就可以统计预测等非常有用的地方，因此，首要任务是找出一些概率分布的概率密度模型。我们来分析一下上面的三个步骤，第一第二都很好解决，关于第三点，我们可以有不同的处理方式如果我们已经对观测的对象有了一些认识，对观测的现象属于那种类型的概率密度分布已经了解了，只是需要确定其中的参数而已，这种情况就是属于参数估计问题。如果我们研究观测的对象，也很难说这些观测的数据符合什么模型，参数估计的方法就失效了，我们只有用非参数估计的办法去估计真实数据符合的概率密度模型了。因此，本文主要讨论参数估计和非参数估计问题 ? 对我们已经知道观测数据符合某些模型的情况下，我们可以利用参数估计的方法来确定这些参数值，然后得出概率密度模型。这个过程中用到了一个条件，就是概率分布符合某些模型这个事实。在这个事实上进行加工。 ? 一般来说，参数估计中，最大似然方法是最重要和最常用的，我们重点介绍参数估计方法我们在《无基础理解贝叶斯》中已经讲过似然性，那么我们就可以先写出似然函数。 ? 假设有N个观测数据，并且概率模型是一个一维的高斯模型，用f(x)表示高斯模型，参数待定，因此我们可以写出似然函数 L(x1,x2,...xn) = f(x1,x2,...xn) = f(x1)*f(x2)*......*f(xn),第二个等式用到了样本之间是独立性这个假设（上面提到的一般步骤的第二条）然后把对似然函数取对数 logL(x1,x2,...xn) = log(f(x1)*f(x2)*......*f(xn)) = log(f(x1)) + log(f(x2))+......+log(f(xn)) 我们既然提到了极大释然方法，那就是要求出使得logL(x1,x2,...xn) 取最大值得参数。因此对 logL(x1,x2,...xn) 求导等于0的参数就是符合要求的参数。 ? 注意，如果似然函数求导有困难，通常我们会用迭代方法去求得这些参数，后面我们讲EM算法就是属于此类型在我们谈到参数估计方法中，我们假定了参数是固定值，但是贝叶斯观点会人文，模型的参数值不是固定的，也是属于某种分布的状态。因此我们做参数估计的时候其实是不准确的，因此贝叶斯方法会把参数的也作为一个概率考虑进来，然后再去观测。我个人理解，这种方式也只能算是参数估计里面的一个变种而已 ? 后验概率 ∝ 似然性 * 先验概率先验概率，我们可以看成是待估计模型的参数的概率分布，后验模型是在我们观测到新的数据以后，结合先验概率再得出的修正的参数的分布 ? 注意，如果似然函数的形式和先验概率的乘积有同样的分布形式的话，得到的后验分布也会有同样的分布模型因此，人为的规定，如果先验概率与似然函数的乘积在归一化以后，与先验分布的形式上是一致的话，似然函数与先验概率就是共轭的，注意共轭不是指先验与后验的共轭 ? 至于满足这个条件的共轭分布有很多种，二项分布与贝塔分布，多项式分布于狄利克雷分布等后面有时间再更新一些贝叶斯方法相关的内容看过了参数估计后，我们知道，如