统计机器翻译开源软件介绍.pdfVIP

下载本文档

12
0
约1.34万字
约 10页
2017-08-08 发布于河北
举报
版权申诉

统计机器翻译开源软件介绍.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计机器翻译开源软件介绍.pdf

统计机器翻译开源软件介绍何中军米海涛刘群摘要：本文介绍了统计机器翻译领域中一些重要的开源软件，包括词语对齐工具、语言模型工具、自动评测工具以及四个完整的统计机器翻译系统。这些开源软件对于推动统计机器翻译的发展起到了非常重要的作用。关键词：统计机器翻译开源软件 Egypt GIZA++ SRILM Mteval Pharaoh SilkRoad Moses GenPar 1 引言统计机器翻译自上世纪 90 年代以来，发展十分迅速，备受业界青睐。我们所熟悉的著名有哪些信誉好的足球投注网站引擎 Google 主页上提供的翻译服务就是使用了这一技术，它能提供几十种语言之间的相互翻译。统计机器翻译在短时期能够得以迅速发展，除了技术进步外，很大一方面要归功于很多开放源码的统计机器翻译工具，有些时候，正是因为这些开放源码的工具才使得某项技术被广泛接受和使用。例如，1990 年代初IBM公司的布朗（Brown ）等人提出了 5 个模型[1][2]来刻画统计机器翻译，取得了不错的效果，但是在此之后很长一段时间内都没有被大家认可和接受，原因是他们的模型非常复杂，难以理解和实现。直到 1999 年，一些研究人员齐聚约 [3]，大家共同合作，重复了IBM 的实验，并在讨翰霍普金斯大学（JHU ）开办了一次讨论班论班结束时发布了一个开源软件包Egypt[4] ，才使得IBM 的模型被广泛研究和使用。可以说布朗等人的工作为现代统计机器翻译奠定了深厚的基础，但其影响却是通过开源软件才得以实现，由此可见开源软件对于统计机器翻译这样一个复杂的研究课题的重要性。事实上，在任何一个研究领域，开源软件都是实现科研成果共享和交流的重要手段。如果将一个统计机器翻译比作摩天大厦的话，依靠个人力量一砖一瓦地进行建设需要耗费很大的力量，而开源软件就如同已经浇注好的整块墙壁和柱子，利用它们我们可以像搭积木一样搭建一个统计机器翻译系统，而且还可以对这些零件进行改造和更换。对研究人员而言，开源软件提供了一个交流和共享的平台，能够迅速了解和掌握相关技术；对于对统计机器翻译感兴趣的用户而言，开源软件有助于理解统计机器翻译的思想和过程，可以利用它迅速搭建一个统计机器翻译系统。接下来，本文将介绍一些在统计机器翻译领域非常重要的开源软件。 2 与统计机器翻译相关的开源软件 1.1 第一个开源的统计机器翻译工具包——Egypt 如前所述，Egypt 是在 1999 年约翰霍普金斯大学统计机器翻译夏季讨论班上，由一些研究人员共同合作开发的统计机器翻译工具包。它包括 4 个模块： Whittle ：语料库预处理模块； GIZA ：用于从句子对齐的双语语料库中训练词语对齐； Cairo ：词语对齐的可视化工具 Decoder ：解码器，即用来执行具体的翻译过程模块，这一模块没有开放源码在讨论班的最后一天，研究者们利用 Egypt 在一天之内搭建了一个新语对的翻译系统，显示了统计机器翻译的强大威力。随着技术的快速发展，Egypt 中使用的很多方法现在已经过时了，然而，其中用于训练词语对齐的模块 GIZA 现在仍然被广泛使用，利用它能够非常方便地从大规模的双语文本中获得统计知识。现在大家使用的是它的改进版本GIZA++[5]，GIZA++实现了IBM公司提出的 5 个模型，其主要思想是利用EM算法1对双语语料库进行迭代训练，由句子对齐得到词语对齐。以汉英翻译为例，假设我们有如下的语料库，汉语（已经进行了词语切分）：英语： 2 这两个文件中对应行的汉语和英语是互为翻译的。通过GIZA++训练，我们可以得到单词之间的翻译概率，例如“新华社” 翻译为 “Xinhua ”的概率为P （Xinhua|新华社）=0.8 ，同时，也得到了句子之间单词的对应关系（称之为词语对齐），例如：如果计算机内存足够的话，它能够训练非常大规模的语料。在我们的实验过程中，使用 8G 内存训练二百万句对，大约需要3 天时间。这一过程完全由计算机自动进行，不用人工干预，节省了很多的人力。而且 GIZA 是独立于语言的，能够对任何两种语言进行训练，这也是统计机器翻译的优点之一。现在几乎