- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
那是你的最终答案?测试时间缩放
改进选择性问答
WilliamJurayjJeffreyChengBenjaminVanDurme
JohnsHopkinsUniversity
{wjurayj1,jcheng71,vandurme}@
摘要答(Ferruccietal.,2010)到可能改变人们生活
的高风险回答(Northpointe,2017)。选择性问题
扩大大型语言模型在测试时的计算规模已
回答通过允许模型在可能会给出错误答案时避
本经在推理基准上展示了令人印象深刻的表免作答来应对这些挑战(Kamathetal.,2020)。
译现。然而,现有的测试时间扩展评估假设这需要一个选择函数,该函数考虑风险承受能
中一个推理系统应该总是对提供的任何问题力、覆盖目标和候选答案的信心,以决定是否
给出答案。这忽略了关于模型是否在其回
2
v答中自信的的担忧,以及是否始终提供响应提供预测(GeifmanandEl-Yaniv,2017)。知道
2应是适当的。为了解决这些问题,我们在何时不应回答是系统与人类有效协作的关键品
6
9推理过程中提取置信度分数以过滤模型的质(Vermaetal.,2023),特别是对于必须不断在
3响应。我们发现,在推理时增加计算预算不
1拒绝回答和花费更多计算力寻找可能解决方案
.仅有助于模型更正确地回答更多问题,而
2之间做出选择的测试时间扩展系统而言。
0且增加了对正确答案的信心。然后,我们
5将当前评估中零风险响应的范式扩展到考为了帮助解决这个问题,我们使用一类简
2
:虑具有非零响应风险水平的设置,并建议单的选择函数评估测试时间缩放模型,如果模
v
i在这种情况下报告评估的方法。1型在耗尽其计算预算后对答案不够自信,则拒
x
r绝问题。我们在不同的计算预算下评估这些系
a
统,展示了一个新的模型性能轴,仅凭回答准
1介绍
确性难以衡量这一点。我们建议了一类效用函
通过使用长时间的推理链来扩大语言模型数来代表不同程度的错误风险,以实证方式测
推理时的计算量,在抵抗训练计算扩展的数量这些系统在不正确答案受到惩罚的情况下表
学推理基准测试中取得了令人印象深刻的结现如何。在这种设置中的评估显示了计算扩展
果(DeepSeek-AIetal.,2025;Muennighoffetal.,如何影响现有系统的信心。基于这些见解,我
2025)。然而,这些结果是在零风险响应设置们提出了一种标准方法来衡量具有非零响应风
下报告的:即使系统对自己答案没有信心,也险场景下的模型性能。总之我们:
您可能关注的文档
- 预编码 Zak-OTFS 用于每载波均衡-计算机科学-机器学习-预编码技术.pdf
- ZonUI-3B:单个消费级 GPU 训练的 30 亿参数 GUI 对齐视觉语言模型-计算机科学-视觉语言模型-图形用户界面定位.pdf
- 无损量子计算通过减少量子比特开销以实现高效的算术运算-计算机科学-机器学习-量子算术-量子哈密顿计算.pdf
- DiffGradCAM: 一种抵抗对抗训练的通用类激活图方法-计算机科学-深度神经网络-可解释性-类激活映射.pdf
- SpecMaskFoley: 通过 ControlNet 引导预训练的频谱掩码生成变换器实现同步视频到音频的合成-计算机科学-音频生成-视频生成.pdf
- 离散时间双层遗忘 RLS 识别在有限激励下的应用-计算机科学-机器学习-自适应系统-参数识别.pdf
- 动手操作:从连续序列中分割单个符号-计算机科学-连续手语分割-机器学习.pdf
- 什么是通用人工智能?-计算机科学-人工通用智能.pdf
- 石鱼:支持海洋机器人中的机器学习研究-计算机科学-人工智能-海洋机器人.pdf
- 提示调优强盗:实现高效的多任务离线 RL 的少样本泛化能力-计算机科学-强化学习-大型预训练变换模型-人工智能.pdf
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)