- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ITCSMT系统概述和单纯形算法
ITC SMT系统概述和单纯形算法 ITC SMT 系统概述 Rescore中的单纯形算法 ITC系统框架 基于短语的log-linear模型 Two pass search strategy(decoder) First pass Log-linear Model Beam search decoder --threshold and histogram pruning Non-monotone search constraints Tip:在最小错误率训练中,ITC系统优化的是100*BLEU+4*NIST Second pass Extraction of 1000-best Rescore algorithm(单纯形算法) Phrase Extraction ITC系统抽取短语时除了利用GIZA++生成的词对齐外,还利用了CLA (Competitive Linking Algorithm)生成的词对齐,把利用CLA alignment抽取出来的短语简单的加到短语表里。 优化技术 Baseline:短语的最大长度设为8,单调有哪些信誉好的足球投注网站 优化方法 Translation lexicon Additional word alignments Re-segmented data Non-monotone search ITC文章中系统性能提升的讨论 一个是CLA的应用,对系统的性能有较大提升,相对于baseline有5%的提高。 另一个是non-monotone search的应用,对系统性能有较大提升11%relative. Rescore Rescore的流程 Rescore Rescoring features of ITC system 1.IBM model1 lexicon score, over all possible alignments 2.IBM model3 lexicon score 3.CLA lexicon score 4.question feature, a binary feature 5.frequency of its n-grams (n=1,2,3,4) within the 1000-best translations 6.ratio of the target length and source length 7.2-grams target language model 8.4-grams target language model 9.5-grams target language model 我在rescore中使用的特征 1.IBM model1 lexicon score 2.句首是否为标点(,.:;等),2值特征 3.frequency of its n-grams (n=1,2,3,4) within the 1000-best translations 4.ratio of the target length and source length 5.2-grams target language model 6.3-grams target language model 7.4-grams target language model 单纯形算法详解 全称应该叫求多维极小化问题的多维下降单纯形算法,不是线性规划中的单纯形算法。 [C语言数值算法大全] 一个单纯形是一个几何形体,它在N维情况下是由N+1个顶点所相互连接的线段以及多边形面所组成的几何形体。二维情况单纯形即为三角形,三维情况则为一个四面体,但不一定必须是规则的四面体。 下降的单纯形法必须从N+1个点儿不仅仅是单个点开始迭代,这N+1个点定义了一个初始的单纯形,如果把其中一个点(哪一个无关紧要)作为初始点P0,则其他N个点可取为: Pi= P0 +r*Ei,其中Ei为,N维单位向量,r为一常数,它是对问题特征大小长度的估计值(可以取相同的也可以取不同的值) 下降的单纯形法迭代过程中绝大多数的步骤就是:将函数值达到最大的单纯形的点(即最高点)通过单纯形的背向面移到一个较低点,这个步骤称为反射,之后,将对单纯形在某个方向上进行扩展以加大步长,当到达“谷底”时,单纯形将自行作横向收缩,且自行拉向最低点(即最佳点)附近。算法结束条件就是函数值下降的幅度小于某个阈值或达到最大迭代次数。 看下图 Rescore中单纯形算法的应用 首先假定BLEU=f(特征的和),对n+1个顶点(n维向量)分别计算BLEU值(取相反数),然后从中选出BLEU(相反数)最大,次大和最小的三个点,算法每次都是把其中的最大点对应的各权重进行调整,使其变小向最小点靠拢,调整完毕后,计
文档评论(0)