迈向可重复的 LLM 评估-量化 LLM 基准分数中的不确定性-计算机科学-大语言模型-生成式人工智能.pdf

迈向可重复的 LLM 评估-量化 LLM 基准分数中的不确定性-计算机科学-大语言模型-生成式人工智能.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大型语言模型(LLMs)是随机的,并非所有模型都能给出确定性的答案,即使将temperature设定为零并使用固定的随机数seed也是如此。然而,很少有基准研究试图量化不确定性,部分原因是重复实验的时间和成本。我们使用设计用于测试LLMs对于基数方向推理能力的基准来探索实验重复对平均分数和预测区间的影响。我们建议一种简单的方法以经济高效地量化基准分数的不确定性,并就可重现的LLM评估提出建议。

迈向可重复的LLM评估:量化LLM基准分数中的不确定性

123,1

RobertE.Blackwell,JonBarry,AnthonyG.Cohn

1TheAlanTuringInstitute,

2TheCentreforEnvironmentFisheriesandAquacultureScience,

3SchoolofComputerScience,UniversityofLeeds.

Correspondence:rblackwell@图灵.ac.uk

Abstract答案对组成的LLM基准测试被广泛用于评估

大型语言模型(LLMs)是随机的,并非所性能并提供排行榜,比较最先进、前沿的模型

本有模型都能给出确定性的答案,即使将(例如LMSYSChatbotArena3)。专门的基准测

设定为零并使用固定的随机试正在出现,以评估模型在包括编码(e.g.Zhuo

译数也是如此。然而,很少有基准研究试etal.,2024)、医疗(e.g.Caietal.,2024)和法律

中图量化不确定性,部分原因是重复实验的(e.g.Guhaetal.,2024)等多样化领域的性能。

2时间和成本。我们使用设计用于测试LLMs

v然而,LLMs是随机系统(Benderetal.,

2对于基数方向推理能力的基准来探索实验2021),可能会生成非确定性的答案。尽管在

9重复对平均分数和预测区间的影响。我们

4建议一种简单的方法以经济高效地量化基LLM评估中(e.g.Burnelletal.,2023)呼吁可重

3

0准分数的不确定性,并就可重现的LLM评复性,但很少有研究试图量化不确定性。人们

.

0估提出建议。曾尝试减少答案的变异性(例如,通过固定随

1

4机数、提示工程(Sahooetal.,2024)或改变

21介绍

:采样策略(e.g.,nucleussampling,Holtzmanetal.,

v

i随着生成式人工智能(GenAI)系统变得2020)),但在撰写本文时,这些方法对于所有

x

r普遍,评估它们的能力并比较其性能是很自然API和模型都不够可靠。

a

的。大型语言模型(LLMs)(Devlinetal.,2019;我们注意到,可重复性和确定性并不总是

Brownetal.,2020),如ClaudeSonnet和GPT-4o人工智能系统的理想属性,特别是当寻求新

是所谓的基础模型(Bommasanietal.,2021)的颖或艺术性的解决方案时。关于人

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档