- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器翻译中规则方法与统计方法-中科院计算所自然语言处理研究组
微引擎流水线机器翻译系统结构
刘群
北京大学计算语言学研究所
中国科学院计算技术研究所
liuqun@
摘要:本文从知识表示、知识获取、知识运用三个层面对于在机器翻译系统开发过程中规则方法和统计方法结合的方式进行了综述和分析,并介绍了我们提出的微引擎流水线机器翻译系统结构。
关键词:机器翻译,混合方法,多引擎策略,微引擎流水线结构
规则与统计相结合的机器翻译方法
自然语言处理和机器翻译研究中规则方法和统计方法(或者称为理性主义和经验主义)是两种主流的方法。我们认为这种提法过于笼统,这里我们从知识表示和知识获取两个方面对现有的一些研究方法做一些归类。
从知识表示的角度看,现有的方法可以归为以下几类:
规则:符号化的规则是一种很直观的知识表示形式,对于语言学家来说,表达非常方便,粒度可粗可细,灵活性很大;但规则表示的知识一般遵从非此即彼的二值逻辑,系统鲁棒性较差;
数据:在各种统计模型中,知识都是通过数据体现出来;而实际数据型知识也不一定就是统计知识,如模糊集合的隶属度也是一种数据型知识;
规则+数据:这是一种混合型知识表示形式,典型的如各种形式的概率语法,为每一条规则加上概率信息或置信度信息;
语料库:大多数情况下,语料库中所包含的知识是隐含的,必须通过某种防止转化为其他形式的知识,才能被运用。不过,在某些情况下,语料库也可以直接作为知识表示的一种形式。例如在基于翻译记忆(TM)的系统中,所有的翻译知识就是一个双语对照的语料库。
从知识获取的角度看,现有的方法可以分为两类:
人工归纳法(理性主义方法):人工总结各种语言知识,这种知识可以是某种规则形式,也可以是数据形式。例如在很多规则系统中,规则的置信度就是由人工给出的;
统计学习法(经验主义方法):通过某种数理统计或者机器学习方法从语料库中获取知识。同样,这种知识既可以是某种数据,也可以是一种规则。例如TBL(基于转换的错误驱动的学习方法)就是通过统计学习规则的方法。
根据上面的分析,我们给出了一个表格,将一些常见的方法做了一个归类:
知识 表示
知识获取
规则
数据
规则+数据
语料库
人工(理性)
CFG, FSMGB, LFG, HPSGHNC
规则评分体系
G语言
统计(经验)
TBLGeneralized EBMTTemplate-Based MT
Statistical MTHMMMax Entropy
PCFG Lexicalized PCFGStatistical Head Transducer
TMEBMTDOP
表1:从知识表示和知识获取两方面对现有的一些自然语言处理技术进行分类
由于机器翻译问题的复杂性,现有的各种单一的技术都很难取得好的结果,人们自然就想到如果把几种方法混合起来是否对机器翻译的总体效果有所改进,于是有人就提出了多引擎的机器翻译策略。本文所介绍的微引擎流水线机器翻译体系结构就是多引擎策略的一种实现形式。
多引擎机器翻译方法概述
由于没有哪种机器翻译方法能够取得令人满意的效果,于是多引擎的思想自然就成为一种提高机器质量的手段。而且这种方法也确实有效。
[Frederking 1994]提出了一种典型的多引擎机器翻译的方法。该方法基本思想描述如下:
多个的翻译引擎同时对输入的句子进行翻译,不仅仅对整个句子进行翻译,而且对句子的任何一个片断也可以给出相应的译文,同时对这些译文片断给出一个评分。
各个翻译引擎共享一个类似Chart的数据结构,根据其源文片断所处的位置,将这些译文片断放在这个公共的Chart结构之中。
对各个引擎给出的片断的评分进行一致化处理,使之具有可比较性。
采用一个动态规划算法(称为Chart Walk算法)选择一组刚好能覆盖整个源文输入句子,同时又具有最高总分的译文片断,作为最后输出的译文。
系统结构如下图所示:
[Hogan 1998]通过一个简单的实验,证明这种方法确实可以得到比任何一种单一的方法都更高的准确率。
现在,多引擎的方法在机器翻译系统的开发中已得到广泛采用。不过具体的应用模式千差万别。目前常用的多引擎机器翻译系统主要有三种结果形式,我们称之为并行的结构、串行的结构和混合的结构。
并行结构也就是我们上面介绍的[Frederking 1994]一文使用的系统结构。在这种结构中,各个翻译引擎各自独立地对输入的文本进行翻译,并将翻译的结果放到一个统一的数据结构中,最后由一个译文选择模块选择出最好的译文组合。
在很多多引擎的机器翻译系统中,并不是采用完全独立的多个翻译引擎对源文进行翻译,而是在机器翻译的不同阶段采用不同的算法,例如,在句法阶段采用基于规则的方法,在转换阶段采用基于实例的方法,而在生成阶段采用基于统计的方法。我们把这一种结构称为串行的多引擎机器翻译结构。
还有很多系统采用的
文档评论(0)