- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
从混合策略的角度改进DAPO
HongzeTan
HKUST
htanai@connect.ust.hk
摘要
本文介绍了对动态采样策略优化(DAPO)算法[1]的两种新改进方法,从混合策略的角度进
行探讨。标准的策略梯度方法在稀疏奖励设置中容易出现不稳定和样本效率低下的问题。为了
本解决这一问题,我们首先提出了一种将预训练的稳定引导策略()引入的方法,以提供离线
译经验,从而对目标策略()的训练进行正则化。这种方法通过自适应调整学习步长来提高训练
中稳定性和收敛速度。其次,我们将这一思想扩展到重新利用零奖励样本上,这些样本通常被动
2态采样策略如DAPO所丢弃。通过将这些样本视为由专家策略指导的独立批次,我们进一步提
v高了样本效率。我们为这两种方法提供了理论分析,证明了它们的目标函数在强化学习已建立
1
3的理论框架内收敛到最优解。提出的混合策略框架有效地平衡了探索与利用,承诺实现更稳定
9和高效的策略优化。
2
1
.
7
01介绍
5
2
:策略梯度方法是现代强化学习的基石。然而,像普通策略梯度这样的在线算法通常表现出高方
v
i差和样本效率低下。诸如近端策略优化(PPO)[2]和世代强化策略优化(GRPO)[3]等方法通过约
x
r束更新步骤来缓解这一问题,确保新策略不会过度偏离旧策略。然而,它们仍然要求策略非常接近。
a
动态采样策略优化(DAPO)[1]算法引入了一种独特的方法,但在策略尚未充分训练的早期训
练阶段可能会低效。收集到的样本质量可能较低。此外,DAPO的动态采样可能会丢弃大量零奖励
样本,而这些样本中可能包含有价值的探索信息。
在这项工作中,我们提出通过引入混合策略训练范式来增强DAPO。我们的主要思想是利用一
个训练良好的引导策略,它可能与正在训练的策略“不很接近”,但受到重要性采样权重的限
制。该引导策略提供稳定且高质量的经验以加速和稳定训练。
我们提出了两种基于此想法的改进方法:
1.一种结合了来自的在线策略样本和来自引导策略的离线策略样本的混合策略方法。
2.扩展了重新纳入先前被DAPO舍弃的零奖励样本,通过将它们视为由引导的数据集的第
三部分。
我们在理论上证明了这些改进是合理的,能够导致找到理论最优解的收敛算法。
1
2理论基础
我们的分析基于策略梯度算法的收敛性质。我们从一个基础定理开始[4]。
定理1.假设策略梯度算法的客观函数为,其中是有限和Lipschitz光滑函数的类,具有
-有界梯度,并且重要性权重被裁剪以受限于。设学习率,其中
和是最佳解。然后,我们的算法中的迭代满足
您可能关注的文档
- 低光增强通过带有光照引导的编码器-解码器网络实现-计算机科学-编码器-解码器网络-生成对抗网络-U-Net-低光照增强.pdf
- 自适应语言提示(ALP)增强多模态大型语言模型中的网络钓鱼网页检测能力-计算机科学-大语言模型-网络安全.pdf
- PGR-DRC:使用无监督学习进行预全局布线 DRC 违规预测-计算机科学-机器学习-无监督学习-神经网络.pdf
- 考虑人口统计学的儿童腕部骨折细粒度分类-计算机科学-机器学习-儿童骨折分类-医学 X 射线成像.pdf
- 具有移动性和时延扩散的信道中的差分通信使用 Zak-OTFS-计算机科学-信道可预测性-时延多普勒调制-差分通信.pdf
- 加速射频功率放大器设计通过智能采样和基于机器学习的参数调整-计算机科学-机器学习-射频功率放大器设计优化.pdf
- WildFX:一个用于野外音频效果图建模的 DAW 驱动管道-计算机科学-AI音乐生成-数字信号处理.pdf
- 实例空间分析的带容量车辆路径问题-计算机科学-机器学习-算法.pdf
- 预编码 Zak-OTFS 用于每载波均衡-计算机科学-机器学习-预编码技术.pdf
- ZonUI-3B:单个消费级 GPU 训练的 30 亿参数 GUI 对齐视觉语言模型-计算机科学-视觉语言模型-图形用户界面定位.pdf
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)