统计语言模型剖析.doc

下载文档 降价啦

4
0
约6.15千字
约 6页
2017-06-24 发布于福建
举报
版权申诉
保障服务

统计语言模型剖析.doc

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

统计语言模型主要内容概述数学建模一.统计语言模型概述二.现有的主要统计语言模型三.数据平滑方法概述我们为什么需要统计语言模型？统计语言模型出现的历史： 1、从小规模受限语言处理走向大规模真实文本处理的。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的第13届国际计算语言学大会（Coling’90）。 2、1992年在蒙特利尔召开的第4届机器翻译的理论和方法国际会议(TMI-92)宣布大会的主题是：“机器翻译中的经验主义和理性主义方法”。公开承认，在传统的基于语言学和人工智能方法的自然语言处理技术以外，还有一种基于语料库和统计语言模型的新方法正在迅速崛起。概述首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave)，领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。十几年后，李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题，实现了有史以来第一次大词汇量非特定人连续语音的识别。概述历史上曾经先后出现过两个方法迥异的英语词性标注系统：TAGGIT系统拥有3000条上下文相关规则，而CLAWS系统[6]完全采用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果表明，采用概率统计方法的CLAWS系统的标注精度达到96%，比TAGGIT系统提高了近20个百分点。语言建模从统计角度看，自然语言中的一个句子s可以由任何词串构成。不过P(s)有大有小。如： s1= 我刚吃过晚饭 s2= 刚我过晚饭吃(并不要求语法是完备的,可对任意s给出概率) P(s1) P(s2) 对于给定的句子s而言，通常P(s)是未知的。对于一个服从某个未知概率分布P的语言L，根据给定的语言样本估计P的过程被称作语言建模。语言建模根据语言样本估计出的概率分布P就称为语言L的语言模型。语言建模技术首先在语音识别研究中提出，后来陆续用到OCR、手写体识别、机器翻译、信息检索等领域。在语音识别中，如果识别结果有多个，则可以根据语言模型计算每个识别结果的可能性，然后挑选一个可能性较大的识别结果。汉语切分歧义消解？（借助语言模型）一、统计语言模型概述设wi是文本中的任意一个词，如果已知它在该文本中的前两个词 wi-2wi-1，便可以用条件概率P(wi|wi-2wi-1)来预测wi出现的概率。这就是统计语言模型的概念。一、统计语言模型概述一、现有的主要统计语言模型 1、n-gram 1、n-gram “the large green ______ .” ?? “mountain”? “tree”? “Sue swallowed the large green ______ .” ?? “pill”? “broccoli”? 如果知道“Sue swallowed ”会缩小可选择的下一个词的范围。如何选择n? 1、n-gram n 较大时提供了更多的语境信息，语境更具区别性 ?? 但是，参数个数多、计算代价大、训练语料需要多、参数估计不可靠。 n 较小时语境信息少，不具区别性 ?? 但是，参数个数少、计算代价小、训练语料无需太多、参数估计可靠。 1、n-gram语言模型一般来说，如果用变量s代表文本中一个任意的词序列，它由顺序排列的L个词组成，即s=w1w2...wL，则统计语言模型就是该词序列s在文本中出现的概率P(s) 利用概率的乘积公式，P(s)可展开为：统计语言模型有点像天气预报中使用的概率方法，用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录。而用三元模型来做天气预报，就好比是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百准确，但是我们大概不会因此就全盘否定这种实用的概率方法. 三元模型（或一般的N元模型）只利用了语言的表层信息（或知识），即符号（字、词、词性标记等）序列的同现信息。不能说它是十全十美的。在这一领域中，下一个研究目标应当是结构化对象（如句法树或语义框架）的统计模型。当然能做到语言理解是了不起的成果，它肯定会比目前这种统计语言模型强得多，这是不争的事实。问题是目前国内外还没有哪一种语言的句法-语义分析系统可以胜任大规模真实文本处理的重任。因此，对于世界各国的语言来说，当前的主流技术仍是语料库方法和统计语言模型。 1、n-gram语言模型计算量：设词表里共有V个不同的词，共有个不同的N-1元