大陪审团:用于动态质量评估标准的协作机器学习模型评估协议.pdfVIP

大陪审团:用于动态质量评估标准的协作机器学习模型评估协议.pdf

此“司法”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大陪审团:用于动态质量评估标准的协作机器学习

模型评估协议

ArthurCho

hello@

MemoirjiLLC

本2025年8月9日

摘要

2

v

6生成式机器学习模型已成为现代系统的核心,驱动着创意写作、总结、多跳推理和

2上下文感知对话等应用[2].这些模型支撑着大规模AI助手、工作流程自动化和自主

9

2决策[15,20].在这样的领域中,“可接受的响应”很少是绝对或静态的,而是多样且高

0

.度依赖于上下文[3].然而,标准评估体系仍然依赖于静态的基准测试,激励优化以排

8

0行榜得分为目标,而不是与动态用户需求或不断变化的实际情况保持一致[6].大陪审

5

2团引入了一种正式的评价协议——结合时间衰减聚合、完整的可追溯性,并支持动态

:

v透明的任务评分标准和多评估人的判断。这些元素共同使得多元且负责的评估成为可

i

x能,能够捕捉不断演变的一致意见并揭示分歧。我们提供了(i)一个开源实现(大陪

r

a审团PyPI)以及(ii)一系列大型语言模型(LLM)推理输出的公共集合以说明其需求

和方法。GrandJury为AI从业者提供了一种新的评估机器学习输出的方法没有绝对

的地面真相.专利申请中:美国临时专利63/825,484,提交日期2025年6月17日。

1介绍

生成式AI系统的迅速普及改变了信息在各个领域中的生产、中介和消费方式——范

围涵盖了创意写作和对话辅助到自动化摘要、分析以及复杂推理任务~[2,19]。这些模型现

在作为数字助理、企业工作流、教育和研究中代理过程的基础~[23]。在这种情况下,输出

不仅仅是“正确”或“错误”,而是反映了有效观点、目标和解释的光谱~[1,21]。

然而,模型评估的标准方法仍然依赖于静态的地面真相数据和标准化的评估标准。诸

如BLEU[16]、ROUGE[12]和MMLU[9]等评价指标是为具有单一正确答案和明确定义

1

指标的任务设计的。长期以来用于翻译和摘要生成的BLEU和ROUGE倾向于奖励抽取

式输出和n-gram重叠,未能评估抽象性、细微差别或语境适宜性[18]。将它们应用于生成

式、开放式的或带有价值判断的输出会导致所测量的内容与实际重要的内容之间存在深刻

不匹配。

针对这些方法论的优化通常集中在自动化指标计算过程。其中值得一提的是RAGAS

(检索增强生成评估)[5],它是一套无参考指标,旨在在不依赖人工标注真实标签的情况下,

通过检索相关性、答案忠实度和上下文精确度等多个维度来评估检索增强生成(RAG)系

统。同样地,以大型语言模型作为评判的方法[26,24]——包括Prometheus[11]、JudgeLM[27]以

及基于GPT的评估管道等框架——通过使用模型来评估其他模型,从而实现评分自动化。

基于嵌入的技术如余弦相似度[25]也常用于自动可信性检查。

然而,这些代理方法仍然不足:RAGAS指标在开放任务中缺乏实证验证,并且经常与人

类偏好不相关[7],以LLM作为裁判的系统表现出可变的偏差和对提示的敏感性[17,22],

基于嵌入的分数忽视了叙述、语用或风格上的忠实度[14]。因此,尽管这些尝试旨在避免

人工标注的需求,但仍难以与微妙的人类判断保持一致。更糟的是,随着供应商和研究人

员设计自己的基准测试,“最先进的”定义变得越来越可塑且自指[13,8]。

2不确定性情况下的评估

2.1基于度量的评估的局限性与Vibe评

您可能关注的文档

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档