汉语概率型上下文无关语法的自动推导.pdfVIP

汉语概率型上下文无关语法的自动推导.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语概率型上下文无关语法的自动推导

* 汉语概率型上下文无关语法的自动推导 周强 黄昌宁 智能技术与系统国家重点实验室 清华大学计算机科学与技术系,北京100084 摘要:本文提出了一种汉语概率型上下文无关语法(PCFG) 的自动推导方法,它在匹配分析机 制上实现了无指导的 EM 迭代训练算法,并通过对训练语料的自动短语界定预处理以及在集 成不同知识源基础上构造合适的初始规则集,保证了训练算法能迅速收敛于符合语言事实的 规则概率分布状态。初步的实验结果显示出目前的算法在训练效率和训练结果可信度方面都 是令人满意的。 关键词:概率型上下文无关语法,期望-最大算法,语法推导。 1 引言 语料库语言学的兴起和不断发展,是九十年代计算语言学研究的一个重要趋势。大规模 计算机语料库的建立,为语言知识的自动获取和语法推导(Grammar Inference)的研究提供了很 好的基础。在这方面,目前主要采用两种方法:一是通过对语料库的标注处理(自动的或人 工的),形成带有不同层次的标注信息的语料库,如标注了词类和句法树信息的Penn 树库[1], 然后利用统计工具从中提取有用的语言知识及其概率分布信息,即有指导训练(supervised training)方法;二是利用迭代算法,如常用的EM(Expectation-Maximization)算法[2],从未经标 注的语料库中自动获取语言知识,即无指导训练(unsupervised training)方法。 作为EM 算法的一个特例,Inside-Outside(IO)算法[3]是直接从未经处理的原始文本中自动 习得概率型上下文无关语法(PCFG) 知识的有效工具。文献[4]利用此方法推导出了基于 Chomsky 范式(CNF)的PCFG 规则,而文献[5]则对此进行了改进,以处理非CNF 的规则形式。 考虑到基本IO 算法在对原始文本进行训练时所需的巨大时间消耗,文献[6]利用了树库中的部 分短语划分(bracketing)信息以提高IO 算法的处理效率。综合这些研究成果,H-H. Shih, S. J. Young 和N.P. Waegner(1995)提出了一个计算机辅助语法构造(CAGC)系统。他们从两个方面 着手提高IO 算法的学习效率:一是利用语言学知识生成所有可能合理的标记结合串作为初始 规则集。二是构造自动短语划分系统AUTO 对原始文本进行预处理。其实验结果显示了很好 的学习效果[7]。但以上的研究都是针对英语的,有关汉语的相关研究目前还没有看到。 本文针对汉语的特点,提出了一种有效的汉语 PCFG 规则自动推导算法,它的基本设计 思想是:1) 在经过短语界定自动预测处理的语料文本基础上,利用匹配控制机制实现 PCFG 规则训练算法。由于汉语句法描述的复杂性,很难构造出一个类似文献[7]中的AUTO 那样的 简单准确的自动短语划分(phrase bracketing )工具来自动形成部分划分的训练文本。因此我 们采用了比较容易自动获取的更低层次的短语界定预测信息,但它仍保留了对训练文本较强 的句法限制作用,并可以通过引入各种有效的匹配控制机制达到较高的处理效率。2) 利用不 同的知识源,设置了合适的初始规则集。通过句法规则自动构造、人工总结和树库统计相结 合的策略,在目前的词类标记和句法标记集基础上,提取出了绝大部分符合汉语句法规律的 上下文无关语法(CFG )规则,并利用树库统计信息设置了合适的初始概率值,从而形成了 一个覆盖面广、分布比较合理 PCFG 初始规则集,保证了训练算法的收敛效果。目前的实验 结果显示,此算法对汉语PCFG 规则的自动推导是有效的。 * 本项研究得到了国家自然科学重点基金项目和中国博士后科学基金的支持。 1 2 匹配分析算法 最初的匹配分析算法是为解决以下的分析问题而提出的: 给定特征向量W,T,BS作为分析器的输入,如何通过左右括号的合理匹配,在此基础上 组合产生所有可能的句法成分,最终形成输入句子的完整分析树(或森林)? 其中 W= w ,w ,...,w 为句子的词语

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档