面向形态丰富语言的翻译规则选择方法.PDFVIP

面向形态丰富语言的翻译规则选择方法.PDF

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向形态丰富语言的翻译规则选择方法

第 11 卷第 4 期 信息技术快报 Vol.11 No.4 Information Technology Letter Sep. 2013 面向形态丰富语言的翻译规则选择方法 王志洋 吕雅娟 孙萌 姜文斌 刘群 摘要:目前的机器翻译模型都是针对形态变化简单的语言(如英语)设计的,不太适合于形态丰富语言(如 维吾尔语)。在本文中,我们通过区别对待形态丰富语言中的词干与词缀,提出了一种新型的面向形态丰富 语言的翻译规则选择方法。我们用词干作为基本翻译单元以缓解数据稀疏问题,此外,每条词干粒度的翻 译规则上还附着一个词缀分布。在翻译时,通过计算待翻译片段的词缀分布与翻译规则词缀分布的相似度, 来选择更合适的翻译规则。从三种形态丰富语言(维吾尔语、哈萨克语、柯尔克孜语)到汉语的翻译实验 表明,该方法显著改善了翻译质量。 关键词:机器翻译 形态丰富语言 词缀分布 相似度 动态特征 1 v 1 引言 8 2 2 形态丰富语言是指词的形态变化比 0 表1. 形态变化类型示例 0. 较复杂、丰富的一类语言。从形态学角 变化类型 示 例 度来说,语言可以分为孤立语、屈折语、 3 黏着语和多式综合语。实际上,除了孤 gül (花) : gül+üm (我的花) 0 7 立语和少数屈折语,绝大部分语言都属 屈折变化 kitab (书) : kitab+ing (你的书) 1 于形态丰富语言。我国少数民族语言中 doppa (帽子) : doppa+si (他的帽子) 0 2 的维吾尔语、蒙古语等,以及我国周边 一致性 män gezit oqu+y+män (我读报纸) : 绝大部分国家的官方语言都属于此类。 sän gezit oqu+y+sän (你读报纸) v i qar (雪), leyle (花) : qarleylesi (雪莲花) X 形态丰富语言最显著的特点是形态 复合变化 a 1 tax(石头), paqa (青蛙) : taxpaqa (乌龟) 变化复杂。下面以维吾尔语 为例,来说 n mektep (学校) : mektipim (我的学校) i 明这类语言的形态变化特点。表 1 列举 语音和谐 h 了形态丰富语言中常见的形态变化方 chiraq (台灯) : chirqing (你的台灯) c 式。屈折变化指的是通过在词干上加接词缀,导致其语法功能改变,同时也改变了单词的拼 写。如在名词 doppa (帽子)后缀接第三人称单数后缀“si ”,就变成了 doppasi (他的帽子)。 一致性指的是句子或短语的不同部分存在对应关系。为了与相应的语法关系一致,需要改变 词形以保持一致性。当表达“我读报纸”时,需要在动词 oqu (读)的后面加上表示第一人 称单数的词缀“

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档