面向短语的词语对齐方法.PDFVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向短语的词语对齐方法

面向短语的词语对齐方法 田亮 黄辉 周沁 澳门大学 自然语言处理与中葡机器翻译实验室 澳门 E-mail :{ma96572, derekfw, lidiasc}@umac.mo 摘 要:自动词语对齐技术在统计机器翻译领域中起了很大的作用。然而,GIZA++训练得出的对齐结果并 不是很令人满意。本文提出了一种基于最大匹配法(MMM)和 GIZA++的词语对齐方法。首先,我们使用 了最大匹配法分别把平行的英文和中文句子划分成单词和短语,然后通过词典和 GIZA++的共同限制来产 生对齐结果。实验表明,尤其是当平行句子中包含短语的时候,我们提出的对齐方法得出的对齐结果要比 GIZA++产生的结果好的多。 关键字 :自动词语对齐、统计机器翻译、最大匹配法、词典、GIZA++ Phrase Oriented Word Alignment Method Liang Tian Fai Wong Sam Chao Natural Language Processing Portuguese-Chinese Machine Translation Lab, University of Macau, Macau E-mail :{ ma96572, derekfw, lidiasc}@umac.mo Abstract: Automatic word alignment plays a very important role in statistical machine translation research area. However, the alignment result generated by GIZA++ is not satisfied . In this paper, an alignment method based on Maximum Matching Method (MMM) and GIZA++ is proposed . Firstly, the words and phrases of parallel English and Chinese sentences are detected based on Maximum Matching Method (MMM), and then candidate alignment results are gotten by the constraint of both a dictionary and GIZA++ result. Empirical study demonstrates that the proposed method gives a better alignment result than that of the GIZA++, especially for parallel sentences that have phras es. Keywords: Automatic word alignment, statistical machine translation, maximum matching method, dictionary, GIZA++ 1 引言 词语对齐是自然语言处理领域的一个基本的问题,许多基于双语语料库的应用(如统计 机器翻译(SMT )、基于实例的机器翻译(EBMT )、词义消歧(WSD )、词典编撰等)都需 要词汇级别的对齐。一般来讲,对齐有篇章(section)、段落(paragraph)、句子(sentence)、 短语(phrase)、词语(word)等不同级别的对齐,其目的就是从双语互译的文本中找出互译的 片段[邓丹,2004]。其中篇章、段落、句子的对齐技术主要用于语料库的整理,而短语和词 语对齐,就是要找出相互翻译的文本中对应的词与词、词与短语、短语和短语之间的相互翻 译对。现今的基于短语的统计机器翻译系统中,很大一部分程度依赖于词语对齐(word alignment )[Och et al.,2000 ;Yarowsky et al.,2000],词语对齐对统计机器翻译中的短语抽 取起到了很大的作用。现在使用最多的词语对齐方法就是使

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8010045112000002

1亿VIP精品文档

相关文档