- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
增强学习ReinofrcementLearning经典算法梳理
增强学习Reinfo?rcement Le?arning经典算法?梳理1:policy? and value? iteration?前言就目前来看,?深度增强学习(Dee?p Reinforc?ement Lear?ning)中的很多方?法都是基于以前的增强?学习算法,将其中的v?alue funct?ion价值函数或者P?olicy func?tion策略函数用深?度神经网络替代而实现?。因此,本文尝试总结?增强学习中的经典算法?。本文主要参考:1?Reinforcem?ent Learni?ng: An Int?roduction;?2Reinforce?ment Learn?ing Course? by David ?Silver1 预?备知识对增强学习有?所理解,知道MDP,?Bellman方程?详细可见:Deep ?Reinforcem?ent Learni?ng 基础知识(DQ?N方面)很多算法都?是基于求解Bellm?an方程而形成:V?alue Itera?tionPolic?y Iteratio?nQ-Learni?ngSARSA2? Policy It?eration 策略?迭代Policy ?Iteration的?目的是通过迭代计算v?alue funct?ion 价值函数的方?式来使policy收?敛到最优。Poli?cy Iterati?on本质上就是直接使?用Bellman方程?而得到的:那么?Policy Ite?ration一般分成?两步:Policy? Evaluatio?n 策略评估。目的是?更新Value Fu?nctionPol?icy Improv?ement 策略改进?。使用 greedy? policy 产生?新的样本用于第一步的?策略评估。本质?上就是使用当前策略产?生新的样本,然后使用?新的样本更新当前的策?略,然后不断反复。理?论可以证明最终策略将?收敛到最优。具体算法?:那么这里要注?意的是policy ?evaluation?部分。这里的迭代很重?要的一点是需要知道s?tate状态转移概率?p。也就是说依赖于m?odel模型。而且按?照算法要反复迭代直到?收敛为止。所以一般需?要做限制。比如到某一?个比率或者次数就停止?迭代。3 Valu?e Iteratio?n 价值迭代Val?ue Iterati?on则是使用Bell?man 最优方程得到?然后改变成迭代?形式value? iteration?的算法如下:那?么问题来了:Pol?icy Iterat?ion和Value ?Iteration有?什么本质区别?为什?么一个叫policy? iteration?,一个叫value ?iteration呢??原因其实很好理解?,policy it?eration使用b?ellman方程来更?新value,最后收?敛的value 即v?π是当前policy?下的value值(所?以叫做对policy?进行评估),目的是为?了后面的policy? improveme?nt得到新的poli?cy。而value? iteration?是使用bellman?最优方程来更新va?lue,最后收敛得到?的value即v?就?是当前state状态?下的最优的value?值。因此,只要最后收?敛,那么最优的pol?icy也就得到的。因?此这个方法是基于更新?value的,所以叫?value iter?ation。从上面?的分析看,value? iteration?较之policy i?teration更直?接。不过问题也都是一?样,需要知道状态转移?函数p才能计算。本质?上依赖于模型,而且理?想条件下需要遍历所有?的状态,这在稍微复杂?一点的问题上就基本不?可能了。4异步更?新问题那么上面的算?法的核心是更新每个状?态的value值。那?么可以通过运行多个实?例同时采集样本来实现?异步更新。而基于异步?更新的思想,Deep?Mind出了一篇不错?的paper:Asy?nchronous ?Methods fo?r Deep Rei?nforcement? Learning。?该文对于Atari游?戏的效果得到大幅提升?。5 小结Rei?nforcement? Learning有?很多经典算法,很多算?法都基于以上衍生。鉴?于篇幅问题,下一个b?log再分析基于蒙特?卡洛的算法。增强学?习Reinforce?ment Learn?ing经典算法梳理2?:蒙特卡洛方法1 ?前言在上一篇文章中?,我们介绍了基于Be?llman方程而得到?的Policy It?eration和Va?lue Iterat?ion两种基本的算法?,但是这两种算法实际?上很难直接应用,原因?在于依然是偏于理想化?的两个算
文档评论(0)