2025年BLEU评分专项测试.docxVIP

下载本文档

0
0
约7.27千字
约 9页
2025-10-28 发布于广东
举报
版权申诉

2025年BLEU评分专项测试.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年BLEU评分专项测试

考试时间：______分钟总分：______分姓名：______

试题一

请简述机器翻译评测的重要性，并说明引入BLEU评分的主要原因。

试题二

BLEU评分中，n-gram匹配指的是什么？请分别解释unigram和bigram匹配的概念。

试题三

一个机器翻译句子为thecatsatonthemat，两个参考句子分别为thecatsatonmat和thefelinesatuponthemat。请手动计算该句子的4-gram精确匹配数（count）。

试题四

解释BLEU评分中的长度惩罚（LengthPenalty）的作用。如果机器译文thecatsatonmat的长度（以词数为单位）为5，参考译文thecatsatonmat的长度为6，参考译文thefelinesatuponthemat的长度为7，请计算该句子在BLEU-4计算中的长度惩罚值Lp（结果保留两位小数）。假设参考译文数量M=2。

试题五

一个BLEU-4得分为30.0，一个BLEU-4得分为40.0。请简要分析这两个分数在衡量机器翻译质量方面可能存在的差异。

试题六

BLEU评分有哪些主要的局限性？请列举至少三点，并简要说明每点局限性意味着什么。

试题七

假设你有三个参考译文：thecatsatonmat,thefelinesatuponthemat,acatissittingonthemat。机器译文的n-gram匹配情况如下：

*Unigrams:4matchesoutof5totalunigrams(precision=0.80)

*Bigrams:3matchesoutof6totalbigrams(precision=0.50)

*Trigrams:2matchesoutof6totaltrigrams(precision=0.33)

*4-grams:1matchoutof4total4-grams(precision=0.25)

机器译文长度为5，参考译文平均长度为6。请计算该句子的BLEU-4分数（结果保留两位小数），需要写出计算过程中的关键步骤和数值。

试题八

为什么BLEU评分通常需要多个参考译文？使用多个参考译文计算BLEU分数，相比于仅使用一个参考译文，主要能带来哪些好处？

试题九

如果一台机器翻译系统在领域A（如新闻）的BLEU得分很高，但在领域B（如法律）的BLEU得分较低，这通常意味着什么？简要分析可能的原因。

试题十

除了BLEU之外，你还知道哪些常用的机器翻译评测指标？请列举两种，并简要说明它们与BLEU评分在衡量标准或侧重点上有什么不同。

试卷答案

试题一答案

机器翻译评测对于评估翻译系统性能、比较不同算法优劣、指导模型优化至关重要。人工评估虽然最准确，但成本高、耗时长、难以规模化。BLEU评分作为一种自动评测方法，能够快速、客观、量化地提供翻译质量指标，方便研究人员和工程师进行系统比较和调试，是当前MT领域最常用、最便捷的自动评测指标之一。

试题一解析思路

本题考察对机器翻译评测必要性和BLEU评分引入原因的理解。解答需从机器翻译评估的实际需求出发，说明人工评估的局限性（成本、时间、规模），进而引出自动评测的必要性，并强调BLEU评分作为代表性自动评测指标的优势（快速、客观、量化、便捷）。

试题二答案

BLEU评分中的n-gram匹配是指统计机器译文和参考译文中共有的连续n个词（或字）的序列数量。Unigram匹配指的是单词级别的匹配，即统计机器译文中每个单词出现在至少一个参考译文中的精确程度。Bigram匹配指的是双词组的匹配，即统计机器译文中每个连续两个单词组成的双词组出现在至少一个参考译文中的精确程度。

试题二解析思路

本题考察对n-gram匹配及具体Unigram、Bigram概念的理解。解答需首先定义n-gram匹配的通用概念，然后分别解释Unigram（词级）和Bigram（双词组）在BLEU评分语境下的具体含义。

试题三答案

计算过程：

*机器译文thecatsatonthemat的Bigrams:the,cat,sat,on,the,mat

*参考译文1thecatsatonmat的Bigrams:the,cat,sat,on,mat

共有5个Bigram匹配（the,cat,sat,on,mat）

*参考译文2thefelinesatuponthemat

您可能关注的文档

文档评论（0）

ShawnLAU + 关注: 实名认证

文档贡献者

人力资源管理师持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月26日上传了人力资源管理师

1亿VIP精品文档

更多 >

2025年BLEU评分专项测试.docxVIP