《机器学习及其应用》课件 第九章 深度强化学习.pptxVIP

《机器学习及其应用》课件 第九章 深度强化学习.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习Machine Learning 汪荣贵 教授合肥工业大学 计算机与信息学院计算机应用技术研究所第9章 深度强化学习计算机应用技术研究所1 深度强化学习概述2 基于价值的学习3 基于策略的学习 本章学习内容计算机应用技术研究所深度强化学习概述计算机应用技术研究所 神经网络概述 DRL基本思想 DRL计算方式 蒙特卡洛树有哪些信誉好的足球投注网站计算机应用技术研究所 DRL基本思想 深度学习(DL)主要通过多层网络结构和非线性变换组合低层特征,形成抽象且易于区分的高层特征表示,实现对事物的有效感知和表达。深度学习具有较强的感知能力,但决策能力不足。 强化学习(RL)主要通过最大化智能体从环境中获得的累计奖励值获得完成序贯决策的最优策略,比较适用构造问题解决的有效策略。强化学习具有较强的决策能力,却缺乏感知能力。 DRL基本思想 通过充分发挥深度学习与强化学习各自的优势,将这两种学习方法进行有机结合,形成深度强化学习(Deep Reinforcement Learning,DRL)方式。具体思想即为使用深度学习方法来自动获得大规模输入数据的抽象表征,并以此表征为依据进行自我激励的强化学习由此获得问题求解的最优策略。 DRL基本思想深度强化学习迭代过程:第一步,智能体通过与环境交互的方式采样获得有关环境状态的信息,并通过深度学习方法使用所得的状态信息实现对环境的感知观察,确定环境状态及状态特征;第二步,使用强化学习方法通过某种策略将当前状态特性映射为相应的动作,并使用预期奖励值计算各状态-动作对的价值函数;第三步,系统环境对智能体的动作做出反应,并形成下一个状态。 DRL基本思想深度强化学习的基本流程 DRL基本思想要实现深度学习与强化学习的有效结合,必须解决好以下三个方面的基本问题: 第一、深度学习模型通常需要根据一定数量带标签训练样本通过监督学习方式完成训练构造,而强化学习使用的样本信息则是具有一定延迟性和稀疏性的反馈信息,如何实现这两种不同类型先验信息兼容是深度强化学习首先必须解决的问题; DRL基本思想 第二、深度学习通常要求各个训练样本之间相互独立,而强化学习的反馈信息在相邻的前后状态之间具有一定的相关性,如何解决训练样本之间独立性和相关性的矛盾显然是一个不能回避的问题; 第三、在学习过程中若使用非线性网络表示值函数则有可能出现值函数取值不稳定的情况,如何有效避免这种情况的发生也是一个必须得到解决的问题。 DRL基本思想以深度Q网络学习方法为例介绍深度强化学习解决上述三个问题的基本思路: 对于训练样本形式不一致问题,深度Q网络学习算法将反馈的奖励信息转化为对应状态的标记由此实现训练样本表示形式的统一。深度Q网络首先使用CNN模型对高维且连续状态下的Q-Table做函数拟合,然后使用Q学习方式确定深度Q网络的损失函数。 DRL基本思想?根据Q学习更新公式:可将深度Q网络学习的目标函数定义为:其中为神经网络,为网络的参数向量,为目标值,由下列公式计算: DRL基本思想? 显然,深度网络的目标函数由学习更新公式的第二项确定,使用目标函数优化深度Q网络参数的过程与使用Q学习更新公式求解动作值函数的过程类似,都是使用当前Q值逼近目的过程,因此对该目标函数进行优化的效果与使用Q学习更新公式更新值所能达到的效果相同。可通过梯度下降等方法对目标函数进行最小值优化计算,实现对网络模型参数向量的更新,达到这种Q值逼近的效果。 DRL基本思想? 对于样本数据的相关性问题,深度Q网络学习算法通过构造经验池的方法进行解决。具体做法是把智能体与系统环境进行交互所得关于每个时序的状态转移相关数据转化成相应的样本数据,并将这些时序样本数据作为训练样本数据储存在相关的回放记忆单元,在具体的模型训练过程中可从记忆单元中随机抽取若干样本进行模型训练。 DRL基本思想? 深度网络学习采用双网络结构解决值函数取值的不稳定问题。它使用一个CNN模型模拟当前动作值函数,同时使用另外一个CNN模型模拟目标动作值函数,通常称为主网络,并称为目标网络。 深度Q网络学习使用主网络产生当前,同时使用目标网络产生,即有:其中为目标网络的参数向量。 DRL基本思想?将代入目标函数则有: 在目标函数中引入新的参数向量。深度网络在经过一定的迭代次数后便将主网络的参数复制给目标函数的参数,在其他时刻保持不变。这在一定程度上降低了当前Q值和目标Q值的相关性,提高了算法稳定性。 深度强化学习概述 DRL基本思想 DRL计算方式 蒙特卡洛树有哪些信誉好的足球投注网站计算机应用技术研究所 DRL计算方式 强化学习主要分为有模型强化学习和无模型强化学习这两种基本类型。 有模型强化学习:使用具体的环境模型进行学习,具有明确的状态转移矩阵; 无模型强化学习:没有明确具体的环境模型,不具有明确的状态转移矩阵,主要依靠概率统计推断方

文档评论(0)

物语终焉 + 关注
实名认证
文档贡献者

北森文件密码:rshhbgee

1亿VIP精品文档

相关文档