2025大语言模型翻译质量评测报告.pdfVIP

下载本文档

24
0
约4.99千字
约 10页
2025-06-24 发布于北京
举报
版权申诉

2025大语言模型翻译质量评测报告.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

北京第二外国语学院

大语言模型翻译质量评测报告（简版）

BISU-AiTQA（v1.0）

BISU-AiTQA（v1.0）面向国内外的六个大模型ChatGPT、

Claude、Gemini、Grok、DeepSeek和通义千问，从当代文学、党

政文献和外事新闻三个领域，在汉译英、日、俄、法、阿五个语

种开展翻译质量评测研究。突破国际现有评测以英语为核心的现

状，构建了以汉语为核心，覆盖多语种、多领域的大语言模型翻

译质量评测体系，具有开创性意义，是促进中外人文交流，提升

汉语全球表达力的积极探索。同时，该评测体系亦可广泛应用于

翻译教学、语言测试等智能教学场景。

1.研究背景

1.1大语言模型翻译的发展现状

大语言模型的发展速度超乎想象，在翻译领域更是取得了前

所未有的进展。从ChatGPT到Claude、Gemini，再到国内

的通义千问、DeepSeek等模型，它们在多个语种对的翻译任务

中已达到接近人类译者的水平，极大提升了译文的语言自然

度、术语一致性与语篇连贯性等，正在深刻改变翻译行业、教

育方式与研究范式。

1.2核心挑战与评测需求

然而，从翻译学和语言学的角度审视，大语言模型在翻译任

务中依然存在诸多挑战：

1.复杂句式处理能力不足：在处理嵌套结构或长距离依存关

系的句子时，模型往往无法准确解析其语法层级和语义关

系；

2.专业领域与文化负载问题：在专业领域，特别是文化负载

较重的文本中，模型常缺乏足够的术语知识与文化理解，

导致信息传递出现偏差；

3.汉语翻译表现差距：与英文翻译任务相比，模型在处理汉

语翻译时的整体表现仍存在明显差距。

这些问题使我们迫切需要构建一个系统化、可解释的评测机

制，以全面揭示大模型在多语翻译任务中的真实能力和潜在短

板。

1.3机器翻译评测的发展历程

机器翻译质量评估并非新兴课题。自2006年ACL设立

WMT以来，BLEU、METEOR、TER等自动指标被广泛应用

于机器翻译系统性能评估。然而，这些传统指标主要基于词面

重合和形式对齐，难以有效捕捉译文的深层语义特征。

近年来，随着大语言模型的兴起，评测重心逐步从传统统计机

器翻译转向类人翻译能力评估，涌现出COMET、BERTScore等

基于深层语义的评估指标，能够更有效地模拟人类对语义准确性

和自然度的判断，进一步推动了翻译评测领域的发展。

1.4现有评测体系的局限性

现有评测体系仍存在三个核心问题：

•汉语地位边缘化：汉语在国际评测中仍处于边缘地位，主

流评测多围绕英语展开，缺乏以汉语为源语言的评测资源；

•文本类型单一化：文本类型过于集中在通用语料，缺乏垂

直领域的专业文本，无法有效评估模型在复杂专业领域中

的翻译能力；

•评测视角局限性：大多数评测仍依赖单一视角，难以从语

言本体出发进行系统性评估。即便引入了MQM等多维框

架，也常面临领域适配性弱、语言学解释力不足等问题。

2.研究内容

2.1总体设计框架

为解决上述问题，本项目从“汉语主导、多语种、多领域”

出发，构建了一个系统的翻译评测体系：

•语料维度：覆盖当代文学、党政文献与外事新闻三大领

域，分别代表表达性、规范性与传播性三种语体特征；

•语种维度：设置英、日、法、俄、阿五种目标语言，实现

“大语种+小语种”的组合结构；

•模型维度：涵盖Claude-3-7-sonnet、Gemini-1.5-

pro-latest、GPT-4o、Grok-3、Qwen-Plus、DeepSeek-R1等

六个中

您可能关注的文档

文档评论（0）

哈哈 + 关注: 实名认证

文档贡献者

嗨，朋友，我都会用最可爱的语言和最实用的内容，帮助你更好地理解和应对职场中的各种挑战！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025大语言模型翻译质量评测报告.pdfVIP