那是你的最终答案?测试时间缩放改进选择性问答-计算机科学-大语言模型-模型推理.pdf

那是你的最终答案?测试时间缩放改进选择性问答-计算机科学-大语言模型-模型推理.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

那是你的最终答案?测试时间缩放

改进选择性问答

WilliamJurayjJeffreyChengBenjaminVanDurme

JohnsHopkinsUniversity

{wjurayj1,jcheng71,vandurme}@

摘要答(Ferruccietal.,2010)到可能改变人们生活

的高风险回答(Northpointe,2017)。选择性问题

扩大大型语言模型在测试时的计算规模已

回答通过允许模型在可能会给出错误答案时避

本经在推理基准上展示了令人印象深刻的表免作答来应对这些挑战(Kamathetal.,2020)。

译现。然而,现有的测试时间扩展评估假设这需要一个选择函数,该函数考虑风险承受能

中一个推理系统应该总是对提供的任何问题力、覆盖目标和候选答案的信心,以决定是否

给出答案。这忽略了关于模型是否在其回

2

v答中自信的的担忧,以及是否始终提供响应提供预测(GeifmanandEl-Yaniv,2017)。知道

2应是适当的。为了解决这些问题,我们在何时不应回答是系统与人类有效协作的关键品

6

9推理过程中提取置信度分数以过滤模型的质(Vermaetal.,2023),特别是对于必须不断在

3响应。我们发现,在推理时增加计算预算不

1拒绝回答和花费更多计算力寻找可能解决方案

.仅有助于模型更正确地回答更多问题,而

2之间做出选择的测试时间扩展系统而言。

0且增加了对正确答案的信心。然后,我们

5将当前评估中零风险响应的范式扩展到考为了帮助解决这个问题,我们使用一类简

2

:虑具有非零响应风险水平的设置,并建议单的选择函数评估测试时间缩放模型,如果模

v

i在这种情况下报告评估的方法。1型在耗尽其计算预算后对答案不够自信,则拒

x

r绝问题。我们在不同的计算预算下评估这些系

a

统,展示了一个新的模型性能轴,仅凭回答准

1介绍

确性难以衡量这一点。我们建议了一类效用函

通过使用长时间的推理链来扩大语言模型数来代表不同程度的错误风险,以实证方式测

推理时的计算量,在抵抗训练计算扩展的数量这些系统在不正确答案受到惩罚的情况下表

学推理基准测试中取得了令人印象深刻的结现如何。在这种设置中的评估显示了计算扩展

果(DeepSeek-AIetal.,2025;Muennighoffetal.,如何影响现有系统的信心。基于这些见解,我

2025)。然而,这些结果是在零风险响应设置们提出了一种标准方法来衡量具有非零响应风

下报告的:即使系统对自己答案没有信心,也险场景下的模型性能。总之我们:

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档