分布式策略梯度的广义优势估计-计算机科学-强化学习-最优传输-策略梯度.pdfVIP

分布式策略梯度的广义优势估计-计算机科学-强化学习-最优传输-策略梯度.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

分布式策略梯度的广义优势估计

ShahilShaik,JonathonM.Smereka,andYueWang

Abstract—广义优势估计(GAE)已被用于通过采用优策略梯度估计器减轻了这一权衡,这些估计器减少了

势函数的指数加权估计来减轻强化学习(RL)的计算复杂性,策略梯度估计的方差同时保持了一个可容忍水平的偏

从而减少策略梯度估计中的方差。尽管其有效性,GAE并未

差[10]。然而,这种方法依赖于标量价值函数,并且

设计用来处理分布式RL中的核心价值分布问题,后者可以捕

捉系统内在的随机性,并因此对系统噪声更为鲁棒。为了解决不能直接应用于价值分布,这是分布式强化学习的一

这一差距,我们提出了一种新的方法,该方法利用最优传输理个关键方面。

论引入了类似Wasserstein的方向度量,这不仅可以测量概与传统的RL不同,分布式RL模型[2]完整的回

率分布之间的距离,还可以衡量它们的方向差异。通过使用指

报分布而非期望值,捕捉环境中的随机性,并在高噪

数加权估计,我们借助这种类似Wasserstein的方向度量来

本推导分布式GAE(DGAE)。类似于传统的GAE,我们的声和动态设置中实现稳健的策略学习。分布式RL的

DGAE提供了一个方差较低且偏差可控的优势估计,使其非关键工具之一是Wasserstein距离,这是一种最初源自

译常适合依赖于优势估计进行策略更新的策略梯度算法。我们将

最优传输(OT)[2],[8]的度量标准。Wasserstein距离

中DGAE集成到了三种不同的策略梯度方法中。这些算法在各量化了两个概率分布之间的距离。其连续性和几乎处

种OpenAIGym环境下进行了评估,并与使用传统GAE

1的基线模型相比以评估其性能。处可微的性质使得它特别适用于基于梯度的学习,因

v

0IndexTerms—广义优势估计,最优传输,Wasserstein为这些属性确保即使在处理非重叠支持的分布时也能

3类方向度量,指数加权估计,策略梯度,分布强化学习

5获得有意义的学习曲线[1]。特别是,分布式RL算法

7利用Wasserstein距离通过最小化预测回报分布与其

1I.介绍

.Bellman目标之间的距离来学习值分布[2],[3],[5]。然

7强化学习(RL)在顺序决策中显示出显著的潜力,

0而,Wasserstein度量标准缺乏定义被比较的分布之间

5其中代理通过与环境交互来学习最优决策以最大化期

2优势的能力。因此,这种方法无法直接估计优势函数

:望回报。这种方法成功解决了具有连续状态-动作空间

v——对于指导策略梯度方法中的策略更新来说是一个

i的复杂问题,如机器人和自主系统。直接参数化和优

x关键组成部分,因为它量化了特定动作相对于策略默

r化策略的策略梯度方法在这些设置中表现出色,支持

a认动作的相对收益。我们需要一种度量来测量分布之

连续动作、随机性和稳定收敛[6]。

间的距离和优势以

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档