2025年BLEU评分真题模拟.docxVIP

2025年BLEU评分真题模拟.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年BLEU评分真题模拟

考试时间:______分钟总分:______分姓名:______

一、

BLEU评分主要衡量的是机器翻译输出与哪个指标进行比较?

二、

请简述BLEU评分中,计算2-gram精确度时,参考译文与机器翻译输出之间匹配的标准是什么。

三、

在BLEU评分的计算公式中,`p_n`代表什么?`n`代表什么?

四、

解释BLEU评分中BP(BleuPenalty)项的作用。当机器翻译输出的长度显著大于参考译文集合的平均长度时,BP项的值会如何变化?这代表什么含义?

五、

BLEU分数的计算涉及几何平均数,为什么采用几何平均而不是算术平均来组合不同n-gram的精确度?

六、

BLEU评分的一个主要局限性是“n-gram重叠问题”,请简要说明这个问题的含义。

七、

假设一个机器翻译输出句子为thecatsatonthemat,参考译文1为thecatsatonitsmat,参考译文2为acatissittingonthemat。请计算该句子在4-gram精确度下的得分。假设参考译文集合的平均长度为5,机器翻译输出长度为6,请计算BP项的值(假设惩罚系数k=0.675)。最终BLEU分数是多少?(请写出计算过程)

八、

BLEU-4分数通常被认为是当前应用最广泛的BLEU变体,它主要关注哪个n-gram的精确度?请分析选择4-gram作为主要评估指标的原因。

九、

除了BLEU评分,你还知道哪些机器翻译评估指标?请选择其中一个与BLEU进行比较,说明它与BLEU的主要区别在于哪里。

十、

在实际应用中,仅仅使用BLEU评分来评估一个机器翻译系统是否足够?请说明理由,并至少提出两个在评估时需要考虑的其他因素。

试卷答案

一、

参考译文集合(ReferenceTranslationSet)

二、

通常要求词干(stem)相同且忽略大小写。即,参考译文中的词干与机器翻译输出中的词干匹配,且不考虑原始单词的大小写形式。具体匹配规则可能因实现而异。

三、

`p_n`代表n-gram精确度,即机器翻译输出中与参考译文集合中存在的n-gram相同的n-gram数量占机器翻译输出中所有n-gram总数的比例。`n`代表n-gram的长度(例如,1代表unigram,2代表bigram,3代表trigram,4代表4-gram)。

四、

BP(BleuPenalty)项用于惩罚长度过长的机器翻译输出。当机器翻译输出的长度显著大于参考译文集合的平均长度时,BP项的值会增大。这会导致最终的BLEU分数降低,即使n-gram精确度没有变差,也反映了译文冗长的问题。

五、

使用几何平均数是因为BLEU评分的各个组成部分(不同n-gram的精确度)是独立的概率值。几何平均能更好地反映所有n-gram精确度的综合影响,并且其范围(0到1)与最终BLEU分数的范围一致,便于解释。算术平均可能会掩盖个别低精度n-gram的影响。

六、

n-gram重叠问题指的是,一个n-gram可能同时匹配多个参考译文。例如,thecat可能同时出现在参考译文1和参考译文2中。BLEU评分在计算精确度时,会统计一个n-gram在所有参考译文中的最大匹配次数,这可能导致对单一机器输出n-gram的高估,因为它“利用”了多个参考译文的相同部分。

七、

1.计算4-gram精确度:

*输出:thecatsatonthemat

*参考译文1:thecatsatonitsmat(匹配的4-gram:thecat,catsat,saton,onits)

*参考译文2:acatissittingonthemat(匹配的4-gram:catis,issit,sittingon,onthe)

*总匹配4-gram数量:4(thecat,catsat,saton,onthe-注意onthe在两个参考中都出现,只计一次)

*输出中4-gram总数:thecat,catsat,saton,onthe(共4个)

*4-gram精确度`p_4`=4/4=1.0

*(为计算方便,假设也存在3-gram和2-gram,虽然题目只问4-gram,但计算BP通常需要n-1gram的精确度。假设2-gram精确度p_2=5/6,3-gram精确度p_3=3/4)

2.计算BP:

*参考译文平均长度`ref_length`=(5+5)

文档评论(0)

ShawnLAU + 关注
实名认证
文档贡献者

人力资源管理师持证人

该用户很懒,什么也没介绍

领域认证 该用户于2023年05月26日上传了人力资源管理师

1亿VIP精品文档

相关文档