FAFU机器学习10-1 Reinforcement Learning课件.pptxVIP

FAFU机器学习10-1 Reinforcement Learning课件.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Foundations of Machine Learning Reinforcement Learning2023/11/4Reinforcement LearningLesson 10 - 1 强化学习(Reinforcement learning)概述K-摇臂赌博机贝尔曼(Bellman)方程MDP(Markov decision process)问题建模基于价值迭代(Value iteration)的求解方法策略迭代(Policy iteration)的求解方法比较Value iteration和Policy iterationQ-learning2023/11/4Reinforcement LearningLesson 10 - 2 强化学习(Reinforcement learning)概述强化学习诞生于上世纪 80 年代,最初应用于制造业,特别是工业机器人的自动控制,近年来随着其他机器方法的成熟开始应用于更加”智能”的场景,除了大名鼎鼎的 Alpha GO,google deepmind 团队还应用强化学习实现了计算机自主学习玩 Atari 系列电子游戏并超越了人类玩家的水平。2023/11/4Reinforcement LearningLesson 10 - 3 强化学习(Reinforcement learning)概述强化学习(Reinforcement learning)的基本内涵是将问题用代理(Agent,有的地方也将其翻译为智能体)和环境进行建模。其中代理能够对环境执行一些特定的动作a∈A,从而到达某个状态s∈S,然后我们就可以根据该状态为代理赋予特定的奖励r。强化学习的基本思想如下图所示:2023/11/4Reinforcement LearningLesson 10 - 4 强化学习(Reinforcement learning)概述强化学习(Reinforcement learning)的基本内涵是将问题用代理(Agent,有的地方也将其翻译为智能体)和环境进行建模。其中代理能够对环境执行一些特定的动作a∈A,从而到达某个状态s∈S,然后我们就可以根据该状态为代理赋予特定的奖励r。强代理的目标是最大化未来的奖励总和,它通过将未来可获得的最大奖励添加到当前的奖励来实现这一点(类似于贪心算法),从而通过潜在的奖励影响当前行动。这个潜在奖励(Value)是从当前状态开始的所有未来动作的奖励期望值的加权和。2023/11/4Reinforcement LearningLesson 10 - 5 K-摇臂赌博机探索与利用与一般监督学习不同,强化学习任务的最终奖赏是在多步动作之后才能观察到,这里我们不妨先考虑比较简单的情形:最大化单步奖赏,即仅考虑一步操作.需注意的是,即使在这样的简化情形下,强化学习仍与监督学习有显著不同,因为机器需通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做哪个动作.欲最大化单步奖赏需考虑两个方面:一是需知道每个动作带来的奖赏,二是要执行奖赏最大的动作.若每个动作对应的奖赏是一个确定值,那么尝试一遍所有的动作便能找出奖赏最大的动作.然而,更一般的情形是,一个动作的奖赏值是来自于一个概率分布,仅通过一次尝试并不能确切地获得平均奖赏值.单步强化学习任务对应一个理论模型,即“ K-摇臂赌博机”2023/11/4Reinforcement LearningLesson 10 - 6 K-摇臂赌博机探索与利用若仅为获知每个摇臂的期望奖赏,则可采用“仅探索” (exploration Only)法:将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂),最后以每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计.若仅为执行奖赏最大的动作,则可采用“仅利用 (exploitation-only) 法:按下目前最优的(即到目前为止平均奖赏最大的)摇臂,若有多个摇臂同为最优,则从中随机选取一个.显然,仅探索法能很好地估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;仅利用法则相反,它没有很好地估计摇臂期望奖赏,很可能经常选不到最优摇臂.因此,这两种方法都难以使最终的累积奖赏最大化.2023/11/4Reinforcement LearningLesson 10 - 7 K-摇臂赌博机探索与利用ε-贪心法ε-贪心法基于一个概率来对探索和利用进行折中:每次尝试时,以ε 的概率进行探索,即以均匀概率随机选取一个摇臂;以1- ε的概率进行利用,即选择当前平均奖赏最高的摇臂(若有多个,则随机选取一个).Q(k) 记录摇臂k 的平均奖赏2023/11/4Reinforcement LearningLesson 10 - 8 K-摇臂赌博机探索与利用ε-贪心法Softmax 算法Softma

文档评论(0)

暗伤 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档