自然语言处理研究中自常用的机器学习技术.pdf

自然语言处理研究中自常用的机器学习技术.pdf

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言处理研究中自常用的机器学习技术

自然语言处理研究中 常用的机器学习技术 常宝宝 北京大学计算语言学研究所 chbb@pku.edu.cn 概要 最大熵模型 条件马尔可夫模型 条件随机场模型 统计建模问题 某随机现象,概率分布未知。 但拥有该随机现象的一组样本数据(训练数据),或者拥 有该数据的部分知识。 人们可以基于样本数据或部分知识对随机现象所服从 的概率分布进行推断,并求解这个概率分布。 利用所得到概率分布对随机现象的未来行为 进行预测。 最大熵方法就是这样一种统计建模技术 例子 满足条件的概率分布有无数多个 例子 在众多的概率分布中如何做出选择? 不增加任何未知的约束信息,在符合已知约束 条件的前提下,尽可能选择均匀分布。 最大熵原则(Principle of Maximum Entropy) 熵描述了随机变量的不确定性,熵值越大表明 该随机变量的不确定性越大,该随机变量也就 越接近均匀分布。 因此,在只掌握关于未知分布的部分知识时, 应该选取符合这些知识但熵值最大的概率分布。 这就是最大熵原则。 按照最大熵原则进行统计建模,是人们可以作 出的唯一不偏不倚的选择,任何其它的选择都 意味着人们增加了额外的约束和假设,这些约 束和假设根据人们掌握的信息无法作出。 最大熵原则(Principle of Maximum Entropy) 最大熵原则是由E.T.Jaynes在1957年提出的,在许多 领域都有着广泛的应用,在自然语言处理研究中也是 如此。 基于最大熵原则构建的统计模型称为最大熵模型,利 用最大熵原则进行统计建模的方法称为最大熵方法。 按照最大熵原则,对于前面的例子进行建模,即为求 解下面的问题: 最大熵原则(Principle of Maximum Entropy) 最大熵方法的一般陈述: 对于很多复杂的问题,利用最大熵原则进行建模不存 在解析的方法。 最大熵方法中的特征表示 最大熵方法通过特征表示样本数据中的已知知 识。 特征在训练样本中出现的期望频率 最大熵方法中约束表达 特征f (x , y ) 的模型期望可表示为: 最大熵方法认为,为了使模型分布符合样本中 的统计证据,特征的模型期望应该与特征的观 察期望值一致,即: 若共有k个特征,则 最大熵方法中约束表达 通过约束使特征的模型期望与观察期望保持一 致,最大熵方法保证所得到模型分布符合样本 数据中的已知统计证据。 满足所有约束条件的分布通常不止一个。若用 P表示所有满足特征约束条件的分布,则: 求解最大熵模型就成为一个约束最优化问题。 求解最大熵分布 求解下列约束最优化问题 运用拉格朗日乘数法,构建拉格朗日函数: 其中L=(l , l , ... , l ) 1 2 k 求解最大熵分布 对拉格朗日函数针对p 求微分,并令其为0,有: 上述分布即为符合最大熵原则的概率分布形式。 最大熵模型是一种对数线性模型,其中指数部分 表述为特征的一种线性加权组合,特征f 对分布 i 的影响通过拉格朗日乘数l 来体现。 i 条件最大熵分布 在计算语言学领域,人们需要的常常是条件模 型,需要估算的是p (y |x) ,此时优化的目标是 分布的条件熵 由于p (x ,y )未知,条件熵可做如下近似 条件最大熵分布 特征的样本期望

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档