文末送书如何使用深度强化学习算法解决实际问题.docxVIP

下载本文档

3
0
约1.43千字
约 3页
2024-11-09 发布于北京
举报
版权申诉

文末送书如何使用深度强化学习算法解决实际问题.docx

1、本文档共3页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文末送书如何使用深度强化学习算法解决实际问题

在使用深度强化学习（DeepReinforcementLearning，DRL）算法解决实际问题的过程中，明确任务需求并初步完成问题定义后，就可以为相关任务选择合适的DRL算法了。

以DeepMind的里程碑工作AlphaGo为起点，每年各大顶级会议DRL方向的论文层出不穷，新的DRL算法如雨后春笋般不断涌现，大有“乱花渐欲迷人眼”之势。

然而，落地工作中的算法选择并不等同于在这个急剧膨胀的“工具箱”中做大海捞针式的一对一匹配，而是需要根据任务自身的特点从DRL算法本源出发进行由浅入深、粗中有细的筛选和迭代。

在介绍具体方法之前，笔者先尝试按照自己的理解梳理近年来DRL领域的发展脉络。

1DRL算法的发展脉络

尽管DRL算法已经取得了长足进步，但笔者认为其尚未在理论层面取得质的突破，而只是在传统强化学习理论基础上引入深度神经网络，并做了一系列适配和增量式改进工作。

总体上，DRL沿着Model-Based和Model-Free两大分支发展。

前者利用已知环境模型或者对未知环境模型进行显式建模，并与前向有哪些信誉好的足球投注网站（LookAheadSearch）和轨迹优化（TrajectoryOptimization）等规划算法结合达到提升数据效率的目的。

作为当前学术界的研究热点，Model-BasedDRL尚未在实践中得到广泛应用，这是由于现实任务的环境模型通常十分复杂，导致模型学习的难度很高，并且建模误差也会对策略造成负面影响。

在笔者看来，任何Model-FreeDRL算法都可以解构为“基本原理—探索方式—样本管理—梯度计算”的四元核心组件。

其中按照基本原理，Model-Free?DRL又存在两种不同的划分体系，即Value-Based和Policy-Based，以及Off-Policy和On-Policy。

如图1所示，DQN、DDPG和A3C作为这两种彼此交织的划分体系下的经典算法框架，构成了DRL研究中的重要节点，后续提出的大部分新算法基本都是立足于这三种框架，针对其核心组件所进行的迭代优化或者拆分重组。

图1?Model-FreeDRL的发展脉络和四元核心组件解构方法

图1中几个关键术语的解释是：

Off-Policy指算法中采样策略与待优化策略不同；

On-Policy指采样策略与待优化策略相同或差异很小；

Value-Based指算法直接学习状态-动作组合的值估计，没有独立策略；

Policy-Based指算法具有独立策略，同时具备独立策略和值估计函数的算法又被称为Actor-Critic算法。

关于上述Model-Free?DRL算法的四元核心组件，其中：

基本原理层面依然进展缓慢，但却是DRL算法将来大规模推广的关键所在；

探索方式的改进使DRL算法更充分地探索环境，以及更好地平衡探索和利用，从而有机会学到更好的策略；

样本管理的改进有助于提升DRL算法的样本效率，从而加快收敛速度，提高算法实用性；

梯度计算的改进致力于使每一次梯度更新都更稳定、无偏和高效。

总体而言，DRL算法正朝着通用化和高效化的方向发展，期待未来会出现某种“超级算法”，能够广泛适用于各种类型的任务，并在绝大多数任务中具有压倒式的性能优势，同时具备优秀的样本效率，从而使算法选择不再是问题。

▼

本文摘自《深度强化学习落地指南》一书，欢迎阅读此书了解更多关于深度强化学习落地的内容。

您可能关注的文档

文档评论（0）

leet1201 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

文末送书如何使用深度强化学习算法解决实际问题.docxVIP