基于改进的隐马尔科夫模型汉语词性标注15.doc

基于改进的隐马尔科夫模型汉语词性标注15.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于改进的隐马尔科夫模型汉语词性标注15

湖南文理学院实习报告 课程名称: 计算机软件基础课程设计 院 部: 电气与信息工程学院 专业班级: 通信工程 学号姓名: 指导教师: 袁里驰 完成时间: 2011年12月25号 报告成绩: 基于改进的隐马尔科夫模型汉语词性标注 第一章 基础理论介绍 ·································· 1.1N元模型 ········································ 1.2隐马尔科夫模型(HMM) ······················ 1.3HMM用于词性标注 ·································· 1.4平滑算法 ··········································· 第二章 改进HMM标注模型与参数估计 2.1改进HMM模型词性标注····························· 2.2参数估计·········································· 2.2.1训练语料库······································ 2.2.2当用数据库··································· 2.2.3参数估计过程···································· 2.3结果举例··········································· 2.4平滑算法··········································· 2.4.1词性概率的平滑·································· 第三章 改进Viterbi算法标注 3.1标注过程············································ 3.2改进后的Viterbi算法的具体描述······················ 3.2.1改进的Viterbi算法变量设置····················· 3.2.2算法说明······································· 3.2.3算法描述······································· 3.2.4算法复杂度····································· 3.3未登录词标注方法·································· 3.4标注实例············································ 第四章 实习心得:······································· 第一章 基础理论介绍 描述物理世界和自然语言的模型可以分为确定性模型和统计模型。确定性模型运用明确的规则来表述物理世界或自然语言的已知的特定属性。然而并不是所有的物理世界和自然语言的统计属性。其基本假设是,物理世界和自然语言可以用随机过程来刻划,而随机过程中的参数可以精确地估计。物理世界中统计模型的例子有统计力学,在自然语言中有概率语法。本章的主要内容就是介绍几种概率语法,如N元模型(N-gram Model)、隐马尔科夫模型(Hidden Makov Model,HMM)等等。 1.1N元模型 统计语言模型的实质就是刻画所有有序列,的概率分,此概率 反映了字符序列作为句子的概率大小。我们首先介绍被广泛运用于不同应用领域中的N元模型。在N元模型中,可以分解如下: = = 其中,表示给定序列的条下,后面紧跟的概率。,要有个参数需要估计。随着历史长度的增加,不同的历史数按指数级增长。事实上,绝大多数的历史在训练数据中根本没有出现,要估计这么多的参数根本就是不可能的。所以,可以假定只依赖于等价类,而等价类的数目远远小于不同历史的数目。 一种简单的等价类可以近似的假定只依赖于前面的N-1个词,这样得到的模型就是N元模型。特别的,当N=2时,,这就是二元模型,也被称为一阶马尔科夫链:当N=3时,,这就是三元模型,也被称为三阶马尔科夫链。 1.2隐马尔科夫模型(HMM) HMM模型是一双重随机过程,其中模型的状态转移过程是不可观察的。而可观察的事件的随机过程是隐蔽的状态

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档