PromptSuite : 一种任务无关的多提示生成框架-计算机科学-大语言模型-提示工程-Python.pdfVIP

PromptSuite : 一种任务无关的多提示生成框架-计算机科学-大语言模型-提示工程-Python.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PromptSuite:一种任务无关的多提示生成框架

EliyaHabba*NoamDahanGiliLiorGabrielStanovsky

TheHebrewUniversityofJerusalem

eliya.habba$mail.huji.ac.il

摘要务(ResendizandKlinger,2024),引发了人们对

使用单一提示进行评估的有效性的担忧。

使用单个提示评估大语言模型已被证明是

本不可靠的,微小的变化会导致性能出现显多提示评估目前颇具挑战性,因为没有标

译著差异。然而,生成更稳健的多提示评估准的方法来扩展现有的基准测试,这些基准测

所需的各种提示变化具有挑战性,这限制试主要是使用单个提示编译的。显然,尽管存

中了其在实践中的应用。为了解决这一问题,在主要限制,单提示评估在许多自然语言处理

1我们引入了PromptSuite,这是一个能够自任务中仍然很普遍(Guetal.,2024a,b;Lioretal.,

v

3动生成各种提示的框架。PromptSuite是灵2025)。

1活的——开箱即可用于广泛的任务和基准

9为了解决阻碍自然语言处理中有效评估的

4测试。它遵循模块化提示设计,允许对每个

1.组件进行可控扰动,并且具有可扩展性,支重大挑战,我们提出了框架PromptSuite,它生

7持添加新的组件和扰动类型。通过一系列成多个提示,并利用大语言模型以及基于规则

0

5案例研究,我们展示了PromptSuite提供了的启发式方法来生成沿影响模型性能维度的

2

:有意义的变化以支持强大的评估实践。其变化。

v1

i可以通过一个PythonAPI,和用户友好的PromptSuite建立在三个核心原则上,这些

x2

r网页界面获得。原则在第2节中进行了介绍。首先,PromptSuite

a

1介绍是灵活,设计为可以在广泛的基准测试中直接

使用。第二,PromptSuite遵循一个模块化设计,

近期的研究表明,大语言模型对任务表述

将提示分解为四个组成部分:指令、提示格式、

中的细微、保持意义不变的变化非常敏感。从添

演示和实例内容,并且PromptSuite能够针对

加空白字符到指令的改写,这些微小的变化会每个部分进行有针对性的扰动,使其易于评估

导致模型性能出现显著差异(Sclaretal.,2023;

它们的影响并适应新任务。最后,PromptSuite

Mizrahietal.,2024)。是可扩展的支持未来的

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档