统计机器翻译基于hmm、结构、反向转换文法、有限状态转换机的翻译模型.pptVIP

统计机器翻译基于hmm、结构、反向转换文法、有限状态转换机的翻译模型.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计机器翻译基于hmm、结构、反向转换文法、有限状态转换机的翻译模型

* * 考虑到在平行语料分析中的可能性,吴德恺提出了统计ITG(SITG).在SITG中,每一条规则都有一个概率(类似于PCFG),这里用a和b表示句法规则的概率和词汇规则的概率. 对于一个给定的双语句对儿,利用SITG和动态规划算法可以计算出该句对儿的最佳句法分析结构,通过计算分析结构的最大似然概率实现结构歧义消解. * * 20 SITG称为随机语法信道模型,由于每个产生式都有一个概率,可以计算句对儿(e,c)所有可能的句法树q的联合概率Pr(e,c,q),实际中,利用viterbi算法近似的计算: C*=arg maxPr(e,c,q)Pr(c) * * 21 建立基于SITG的翻译模型的理论基础是:目标语言语法的镜像版可以实现源语言句子的分析. 基本方法是:先获取用于目标语言单语分析的上下文无关文法,在通过产生式镜像变换,词性映射和单词跳跃等处理,将上下文无关文法用于SITG. * * 22 产生式镜像变换:每一条产生式都变成两条,一条的规则右端生成符合的排列顺序保持不变,另一条反向.(CFG ITG) VP V NP; VP [V NP]| V NP ; 对CFG规则进行镜像变换的目的是为了增加语法的灵活性,使其能够运用目标语言的语法分析源语言句子。 * * 23 词性映射:汉语的词类往往不能直接与英语的词类对应,需要映射。办法是:允许目标语言单词的词类标记(在翻译词表可以找到)用作源语言单词的词类代理. View可以对应于nc(名词)和vn(动词)标记,因为单词view可以被翻译为”意见/nc”,也可以被翻译为”检视/vn”. * * 24 单词跳跃:有些虚词不需要翻译(SITG中的独身翻译原则)。为了识别真正的”独身”的单词,可以借用单词跳跃技术,具体方法见算法2; He is the son of Stephen. * * 25 算法2 根据上述思想,利用SITG和动态规划算法可以使给定的双语句对儿获得最佳分析树。 表示英语单词序列es+1…et ;Cu..v C(s..t): es..t 中的所有符号作为一个英语单词翻译成汉语的单词集合;C(s,t):es..t 中的任意单词翻译成汉语的单词集合; K:可以被连续跳过的英语单词的最大个数 * * 26 代词—He变为代词——He. VP—[is/是].NP VP—[is/是]NP. * * 双语句对儿的最佳分析树具有概率δ0,T,0,V(S),S为ITG的起始符号. δs,t,u,v(i)=maxP[subtree(q),l(q)=i,i es..t/cu..v];该定义给出了δ0,T,0,V(S)的求法,具体见算法1 算法1 假设每个词翻译的数目受到某个常数的约束,那么,集合C(s,t)的最大规模与t-s是成正比的,时间复杂度O( ),不是指数级上升. * * 27 ITG较好的考虑了两种语言在句法层次上的约束关系,使双语句子能够在统一的语法体系下进行同步分析,而且,SITG考虑了概率信息在双语句法分析中的作用,更有利于实现大规模平行语料的自动对齐和歧义消解,并提高系统的执行速度. * * 28 10.7基于有限状态转换机的翻译模型 基本思路是,将源语言和目标语言句子中的中心词的依存序列分别作为输入串和输出串,依存关系模型递归地运用中心转换机对这些输入串和输出串进行分解,形成同步依存树,然后,用动态规划算法有哪些信誉好的足球投注网站给定输入串的最有目标串推导。 * * 29 加权的有限状态中心转换机 五元组:W表示输入字符集,V表示输出字符集,Q表示有限状态集,F表示终止状态,T表示状态转换动作的有限集合.转换形式如下: q,q’,w,v,α,β,c(解释), α=β=0时为中心转换. 中心转换的操作是非确定性的.转换机从初始状态开始,可以到达相应的其他状态,直到到达终止状态为止. 为了保证一个推导有效,每次只能从输入带上读取一个字符(词),推导结束后,目标带上的符号序列构成了输出串. * * 30 * * 31 一个加权的中心转换机实现输入串到输出串推导的代价是推导过程中每一步转换代价的总和.(选取代价最小的那个) 一个字符串到另一个字符串的转换函数:从初始状态和初始符号出发,将输入串映射到输出串的所有有效的推导中代价最小的推导. 有限状态中心转换机表达能力更强(FST),中心转换机可以实现任意长度的字符串反转. * * 32 依存转换模型: 由一组中心转换机构成,中心转换机分层次的被调用,根据子网络的推导读写一个以(w,v)为中心的字符串对. 转换机实现的是源语言句子依存树和目标语言句

文档评论(0)

sandaolingcrh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档