基于时空增强的强化学习泛化能力提升方法研究.pdfVIP

基于时空增强的强化学习泛化能力提升方法研究.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

摘要

强化学习在自动驾驶、算法控制、机器人技术等多个真实世界智能决策任务

中有出色的表现,目前得到了研究人员的广泛关注。一般的强化学习的训练环境

和应用环境完全相同,然而当面临不同的训练和应用环境时,由于训练环境的数

据分布单一而应用环境的数据分布复杂;又因为训练环境中对于决策过程缺乏有

效的监督导致在应用中决策结果不鲁棒;二者同时造成在这种环境中训练得到的

模型在实际部署时会对新环境中的变化非常敏感,模型很难将在训练环境中学习

到的经验转移到新的环境中。经过对现有算法的深入调研,目前的工作主要聚焦

于利用环境先验知识进行数据增强或应用正则化技术处理环境间的特征差异,且

基本都是从时序或空间的单一维度进行任务分析和建模,因此无法很好地泛化到

其未见过的测试环境。

为了提升强化学习在不同训练和测试环境间的泛化能力,本文从空间和时序

两个维度来设计增强任务,提出了一种时空增强方法(SpatiotemporalAugmentation,

STA),主要包括两个增强模块:(1)在空间维度上增强,将与环境交互得到的

轨迹数据进行线性插值,扩展数据在特征空间中的分布从而增加数据分布多样

性;(2)在时序维度上增强,引入一个基于正逆向预测的环境动力学模型辅助任

务,根据状态和动作拟合环境状态转移,通过该模型提供环境层面的监督信号辅

助强化学习算法训练。总体上,算法采用两阶段训练方式更新网络,在策略更新

阶段使用在空间维度上增强后的交互数据来更新策略网络,在辅助任务更新阶段

使用回放缓冲区中的数据来更新价值网络和时序条件下的状态转移预测模型,通

过共享策略网络、价值网络和预测模型的特征提取器参数,有效地将空间增强模

块和时序增强模块相结合,提升了强化学习算法在应用环境上的泛化能力。

本文在公开的OpenAIProcgen游戏环境和搭建的无人机规避导弹对抗环境上

对提出的方法进行性能评估,并且对比了近几年的先进方法,实验结果显示在多

数环境中有较明显的泛化能力提升,并且进行了各模块的消融实验和分析,验证

了其在复杂环境下的泛化性能。另外,本文进行了不同采样分布的对比实验、超

参数敏感性实验和正逆向预测对比实验,展现了方法设计和参数设置的合理性。

关键词:强化学习,泛化,时空增强,策略优化

I

ABSTRACT

ABSTRACT

Reinforcementlearning(RL)hasdemonstratedoutstandingperformanceinnumer-

ousreal-worldintelligentdecision-makingtasks,suchasautonomousdriving,algorithmic

control,androbotics,andhasreceivedwidespreadattentionfromresearchers.Typically,

thetrainingandtestingenvironmentsingeneralRLareidentical.However,whenfaced

withdifferenttrainingandtestingenvironments,RLmodels’performancesuffersfortwo

mainreasons.First,thedatadistributioninthetrainingenvironmentisoftenhomoge-

neous,whilethedatadistributioninthetestingenvironmentiscomplex.Second,thelack

ofeffectivesupervisioninthedecision-makingprocesswithinthetrainingenvironmentre-

sultsinnon-robustdecisionsduringtesting.Bothfactorscontributetothehighsensitivity

ofmodelstrainedin

文档评论(0)

精品资料 + 关注
实名认证
文档贡献者

温馨提示:本站文档除原创文档外,其余文档均来自于网络转载或网友提供,仅供大家参考学习,版权仍归原作者所有,若有侵权,敬请原作者及时私信给我删除侵权文

1亿VIP精品文档

相关文档