从混合策略的角度改进 DAPO-计算机科学-强化学习-动态采样策略优化.pdf

下载文档

0
0
约9.1千字
约 5页
2025-07-28 发布于中国
举报
版权申诉
保障服务

从混合策略的角度改进 DAPO-计算机科学-强化学习-动态采样策略优化.pdf

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

从混合策略的角度改进DAPO

HongzeTan

HKUST

htanai@connect.ust.hk

摘要

本文介绍了对动态采样策略优化（DAPO）算法[1]的两种新改进方法，从混合策略的角度进

行探讨。标准的策略梯度方法在稀疏奖励设置中容易出现不稳定和样本效率低下的问题。为了

本解决这一问题，我们首先提出了一种将预训练的稳定引导策略（）引入的方法，以提供离线

译经验，从而对目标策略（）的训练进行正则化。这种方法通过自适应调整学习步长来提高训练

中稳定性和收敛速度。其次，我们将这一思想扩展到重新利用零奖励样本上，这些样本通常被动

2态采样策略如DAPO所丢弃。通过将这些样本视为由专家策略指导的独立批次，我们进一步提

v高了样本效率。我们为这两种方法提供了理论分析，证明了它们的目标函数在强化学习已建立

3的理论框架内收敛到最优解。提出的混合策略框架有效地平衡了探索与利用，承诺实现更稳定

9和高效的策略优化。

01介绍

:策略梯度方法是现代强化学习的基石。然而，像普通策略梯度这样的在线算法通常表现出高方

i差和样本效率低下。诸如近端策略优化（PPO）[2]和世代强化策略优化（GRPO）[3]等方法通过约

r束更新步骤来缓解这一问题，确保新策略不会过度偏离旧策略。然而，它们仍然要求策略非常接近。

动态采样策略优化（DAPO）[1]算法引入了一种独特的方法，但在策略尚未充分训练的早期训

练阶段可能会低效。收集到的样本质量可能较低。此外，DAPO的动态采样可能会丢弃大量零奖励

样本，而这些样本中可能包含有价值的探索信息。

在这项工作中，我们提出通过引入混合策略训练范式来增强DAPO。我们的主要思想是利用一

个训练良好的引导策略，它可能与正在训练的策略“不很接近”，但受到重要性采样权重的限

制。该引导策略提供稳定且高质量的经验以加速和稳定训练。

我们提出了两种基于此想法的改进方法：

1.一种结合了来自的在线策略样本和来自引导策略的离线策略样本的混合策略方法。

2.扩展了重新纳入先前被DAPO舍弃的零奖励样本，通过将它们视为由引导的数据集的第

三部分。

我们在理论上证明了这些改进是合理的，能够导致找到理论最优解的收敛算法。

2理论基础

我们的分析基于策略梯度算法的收敛性质。我们从一个基础定理开始[4]。

定理1.假设策略梯度算法的客观函数为，其中是有限和Lipschitz光滑函数的类，具有

-有界梯度，并且重要性权重被裁剪以受限于。设学习率，其中

和是最佳解。然后，我们的算法中的迭代满足

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

从混合策略的角度改进 DAPO-计算机科学-强化学习-动态采样策略优化.pdf