提示调优强盗:实现高效的多任务离线 RL 的少样本泛化能力-计算机科学-强化学习-大型预训练变换模型-人工智能.pdf

提示调优强盗:实现高效的多任务离线 RL 的少样本泛化能力-计算机科学-强化学习-大型预训练变换模型-人工智能.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

提示调优强盗:实现高效的多任务离线RL的少样本

泛化能力

FinnRietz,OlegSmirnov,

SaraKarimi,andLeleCao

ÖrebroUniversity

finn.rietz@oru.se

King,MicrosoftGaming

{oleg.smirnov,sarakarimi,lelecao}@

Correspondingauthor

本Equalcontribution

摘要提示已成为将大型预训练变换模型适应下游任务的主导范式。提示

3

v决策变换器(PDT)通过利用随机轨迹提示来识别目标任务,实现大规模、

8多任务离线强化学习(RL)预训练。然而,这些提示是从专家演示中均匀

5

3采样的,忽视了一个关键限制:并非所有提示对于区分任务都同样具有信

6息量。这限制了泛化和适应能力,特别是在低数据或开放世界设置中,样

0.本效率至关重要。为了解决这个问题,我们提出了一种轻量级的、推理时

2间的、基于强盗的提示调整框架。该强盗探索并优化轨迹提示选择以提升

0

5任务性能,同时避免变换器主干的成本高昂的微调。我们的实验不仅表明

2了由于基于强盗的提示调整而带来的明确性能增益,而且在样本复杂性、

:

v可扩展性和提示空间探索方面也优于基准提示调整方法。这些结果突出了

i

x自适应提示选择机制对于离线多任务RL中高效泛化的意义。

r

a

1介绍

近期的人工智能(AI)研究进展已经展示了大型预训练的基于变压器的

基础模型在许多领域的强大能力,包括语言[2,12],视觉[5,13]和强化学习

[10,14]。这些大型模型利用庞大而多样的离线数据集来获取可以解决许多

下游任务的通用表示。在零样本和少样本设置中利用这些模型的一个突出策

略涉及将其条件化到一个提示–即一种结构化的输入,用于指定当前目标。

通过保持提示处于上下文环境中,模型确保随后生成的标记与任务对齐。因

此,预训练模型在下游任务中的表现不仅取决于预训练数据的覆盖面,还取

决于提供提示的质量和信息量[6,8,11]。

2F.Rietzetal.

在基于变换器的多任务语言模型取得成功的基础上,离线强化学习

(ORL)越来越多地采用了变换器架构,如决策变换器(DT)[4],以解决顺序

决策问题。在多任务设置中,DT已经扩展到提示决策变换器(PDT)[19],

利用随机轨迹提示,多个专家演示片段,实现任务条件下的预训练,并促进

少量样本适应。这些提示作为任务描述符,使PDT能够区分任务并生成与

每个任务的最优策略分布一致的动作。然而,PDT从演示数据集中随机均

匀地采样这些提示,忽视了一

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档