增强学习ReinofrcementLearning经典算法梳理.docxVIP

下载本文档

37
0
约6.32千字
约 13页
2017-03-08 发布于北京
举报
版权申诉

增强学习ReinofrcementLearning经典算法梳理.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

增强学习ReinofrcementLearning经典算法梳理

增强学习Reinfo?rcement Le?arning经典算法?梳理1：policy? and value? iteration?前言就目前来看，?深度增强学习（Dee?p Reinforc?ement Lear?ning)中的很多方?法都是基于以前的增强?学习算法，将其中的v?alue funct?ion价值函数或者P?olicy func?tion策略函数用深?度神经网络替代而实现?。因此，本文尝试总结?增强学习中的经典算法?。本文主要参考：1?Reinforcem?ent Learni?ng: An Int?roduction；?2Reinforce?ment Learn?ing Course? by David ?Silver1 预?备知识对增强学习有?所理解，知道MDP，?Bellman方程?详细可见：Deep ?Reinforcem?ent Learni?ng 基础知识（DQ?N方面）很多算法都?是基于求解Bellm?an方程而形成：V?alue Itera?tionPolic?y Iteratio?nQ-Learni?ngSARSA2? Policy It?eration 策略?迭代Policy ?Iteration的?目的是通过迭代计算v?alue funct?ion 价值函数的方?式来使policy收?敛到最优。Poli?cy Iterati?on本质上就是直接使?用Bellman方程?而得到的：那么?Policy Ite?ration一般分成?两步：Policy? Evaluatio?n 策略评估。目的是?更新Value Fu?nctionPol?icy Improv?ement 策略改进?。使用 greedy? policy 产生?新的样本用于第一步的?策略评估。本质?上就是使用当前策略产?生新的样本，然后使用?新的样本更新当前的策?略，然后不断反复。理?论可以证明最终策略将?收敛到最优。具体算法?：那么这里要注?意的是policy ?evaluation?部分。这里的迭代很重?要的一点是需要知道s?tate状态转移概率?p。也就是说依赖于m?odel模型。而且按?照算法要反复迭代直到?收敛为止。所以一般需?要做限制。比如到某一?个比率或者次数就停止?迭代。3 Valu?e Iteratio?n 价值迭代Val?ue Iterati?on则是使用Bell?man 最优方程得到?然后改变成迭代?形式value? iteration?的算法如下：那?么问题来了：Pol?icy Iterat?ion和Value ?Iteration有?什么本质区别？为什?么一个叫policy? iteration?，一个叫value ?iteration呢?？原因其实很好理解?，policy it?eration使用b?ellman方程来更?新value，最后收?敛的value 即v?π是当前policy?下的value值（所?以叫做对policy?进行评估），目的是为?了后面的policy? improveme?nt得到新的poli?cy。而value? iteration?是使用bellman?最优方程来更新va?lue，最后收敛得到?的value即v?就?是当前state状态?下的最优的value?值。因此，只要最后收?敛，那么最优的pol?icy也就得到的。因?此这个方法是基于更新?value的，所以叫?value iter?ation。从上面?的分析看，value? iteration?较之policy i?teration更直?接。不过问题也都是一?样，需要知道状态转移?函数p才能计算。本质?上依赖于模型，而且理?想条件下需要遍历所有?的状态，这在稍微复杂?一点的问题上就基本不?可能了。4异步更?新问题那么上面的算?法的核心是更新每个状?态的value值。那?么可以通过运行多个实?例同时采集样本来实现?异步更新。而基于异步?更新的思想，Deep?Mind出了一篇不错?的paper：Asy?nchronous ?Methods fo?r Deep Rei?nforcement? Learning。?该文对于Atari游?戏的效果得到大幅提升?。5 小结Rei?nforcement? Learning有?很多经典算法，很多算?法都基于以上衍生。鉴?于篇幅问题，下一个b?log再分析基于蒙特?卡洛的算法。增强学?习Reinforce?ment Learn?ing经典算法梳理2?：蒙特卡洛方法1 ?前言在上一篇文章中?，我们介绍了基于Be?llman方程而得到?的Policy It?eration和Va?lue Iterat?ion两种基本的算法?，但是这两种算法实际?上很难直接应用，原因?在于依然是偏于理想化?的两个算