文末送书如何使用深度强化学习算法解决实际问题.docxVIP

文末送书如何使用深度强化学习算法解决实际问题.docx

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文末送书如何使用深度强化学习算法解决实际问题

在使用深度强化学习(DeepReinforcementLearning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的DRL算法了。

以DeepMind的里程碑工作AlphaGo为起点,每年各大顶级会议DRL方向的论文层出不穷,新的DRL算法如雨后春笋般不断涌现,大有“乱花渐欲迷人眼”之势。

然而,落地工作中的算法选择并不等同于在这个急剧膨胀的“工具箱”中做大海捞针式的一对一匹配,而是需要根据任务自身的特点从DRL算法本源出发进行由浅入深、粗中有细的筛选和迭代。

在介绍具体方法之前,笔者先尝试按照自己的理解梳理近年来DRL领域的发展脉络。

1DRL算法的发展脉络

尽管DRL算法已经取得了长足进步,但笔者认为其尚未在理论层面取得质的突破,而只是在传统强化学习理论基础上引入深度神经网络,并做了一系列适配和增量式改进工作。

总体上,DRL沿着Model-Based和Model-Free两大分支发展。

前者利用已知环境模型或者对未知环境模型进行显式建模,并与前向有哪些信誉好的足球投注网站(LookAheadSearch)和轨迹优化(TrajectoryOptimization)等规划算法结合达到提升数据效率的目的。

作为当前学术界的研究热点,Model-BasedDRL尚未在实践中得到广泛应用,这是由于现实任务的环境模型通常十分复杂,导致模型学习的难度很高,并且建模误差也会对策略造成负面影响。

在笔者看来,任何Model-FreeDRL算法都可以解构为“基本原理—探索方式—样本管理—梯度计算”的四元核心组件。

其中按照基本原理,Model-Free?DRL又存在两种不同的划分体系,即Value-Based和Policy-Based,以及Off-Policy和On-Policy。

如图1所示,DQN、DDPG和A3C作为这两种彼此交织的划分体系下的经典算法框架,构成了DRL研究中的重要节点,后续提出的大部分新算法基本都是立足于这三种框架,针对其核心组件所进行的迭代优化或者拆分重组。

图1?Model-FreeDRL的发展脉络和四元核心组件解构方法

图1中几个关键术语的解释是:

Off-Policy指算法中采样策略与待优化策略不同;

On-Policy指采样策略与待优化策略相同或差异很小;

Value-Based指算法直接学习状态-动作组合的值估计,没有独立策略;

Policy-Based指算法具有独立策略,同时具备独立策略和值估计函数的算法又被称为Actor-Critic算法。

关于上述Model-Free?DRL算法的四元核心组件,其中:

基本原理层面依然进展缓慢,但却是DRL算法将来大规模推广的关键所在;

探索方式的改进使DRL算法更充分地探索环境,以及更好地平衡探索和利用,从而有机会学到更好的策略;

样本管理的改进有助于提升DRL算法的样本效率,从而加快收敛速度,提高算法实用性;

梯度计算的改进致力于使每一次梯度更新都更稳定、无偏和高效。

总体而言,DRL算法正朝着通用化和高效化的方向发展,期待未来会出现某种“超级算法”,能够广泛适用于各种类型的任务,并在绝大多数任务中具有压倒式的性能优势,同时具备优秀的样本效率,从而使算法选择不再是问题。

本文摘自《深度强化学习落地指南》一书,欢迎阅读此书了解更多关于深度强化学习落地的内容。

文档评论(0)

leet1201 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档