- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
迈向可重复的LLM评估:量化LLM基准分数中的不确定性
123,1
RobertE.Blackwell,JonBarry,AnthonyG.Cohn
1TheAlanTuringInstitute,
2TheCentreforEnvironmentFisheriesandAquacultureScience,
3SchoolofComputerScience,UniversityofLeeds.
Correspondence:rblackwell@图灵.ac.uk
Abstract答案对组成的LLM基准测试被广泛用于评估
大型语言模型(LLMs)是随机的,并非所性能并提供排行榜,比较最先进、前沿的模型
本有模型都能给出确定性的答案,即使将(例如LMSYSChatbotArena3)。专门的基准测
设定为零并使用固定的随机试正在出现,以评估模型在包括编码(e.g.Zhuo
译数也是如此。然而,很少有基准研究试etal.,2024)、医疗(e.g.Caietal.,2024)和法律
中图量化不确定性,部分原因是重复实验的(e.g.Guhaetal.,2024)等多样化领域的性能。
2时间和成本。我们使用设计用于测试LLMs
v然而,LLMs是随机系统(Benderetal.,
2对于基数方向推理能力的基准来探索实验2021),可能会生成非确定性的答案。尽管在
9重复对平均分数和预测区间的影响。我们
4建议一种简单的方法以经济高效地量化基LLM评估中(e.g.Burnelletal.,2023)呼吁可重
3
0准分数的不确定性,并就可重现的LLM评复性,但很少有研究试图量化不确定性。人们
.
0估提出建议。曾尝试减少答案的变异性(例如,通过固定随
1
4机数、提示工程(Sahooetal.,2024)或改变
21介绍
:采样策略(e.g.,nucleussampling,Holtzmanetal.,
v
i随着生成式人工智能(GenAI)系统变得2020)),但在撰写本文时,这些方法对于所有
x
r普遍,评估它们的能力并比较其性能是很自然API和模型都不够可靠。
a
的。大型语言模型(LLMs)(Devlinetal.,2019;我们注意到,可重复性和确定性并不总是
Brownetal.,2020),如ClaudeSonnet和GPT-4o人工智能系统的理想属性,特别是当寻求新
是所谓的基础模型(Bommasanietal.,2021)的颖或艺术性的解决方案时。关于人
文档评论(0)