- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
RL强化学习基本资料
强化学习研究进展*
高 阳
南京大学软件新技术国家重点实验室,南京210093
1 引言
智能系统的一个主要特征是能够适应未知环境,其中学习能力是智能系统的关键技术之一。在机器学习范畴,根据反馈的不同,学习技术可以分为监督学习(Supervised learning)、非监督学习(Unsupervised learning)和强化学习(Reinforcement learning)三大类。其中强化学习是一种以环境反馈作为输入的、特殊的、适应环境的机器学习方法。所谓强化学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖赏值最大。该方法不同与监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错(trial-and-error)的方法来发现最优行为策略。
强化学习通常包括两个方面的含义:一方面是将强化学习作为一类问题;另一方面是指解决这类问题的一种技术。如果将强化学习作为一类问题,目前的学习技术大致可分成两类:其一是有哪些信誉好的足球投注网站智能系统的行为空间,以发现系统最优的行为。典型的技术如遗传算法等有哪些信誉好的足球投注网站技术;另一类是采用统计技术和动态规划方法来估计在某一环境状态下的行为的效用函数值,从而通过行为效用函数来确定最优行为。我们特指这种学习技术为强化学习技术。不作特殊说明,在本章中强化学习被理解为是一种学习技术。
强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴普洛夫的条件反射实验。但直到上世纪八十年代末、九十年代初强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学基础研究取得突破性进展后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一。
本章综述了强化学习技术这一领域的研究情况,特别是从第3节至第6节讨论了当前强化学习研究中的热点问题。第2节简要介绍典型强化学习算法及其数学基础,第3节介绍部分感知环境下的强化学习算法,第4节介绍强化学习中连续状态的函数估计,第5节介绍分层强化学习,第6节介绍多agent强化学习,最后在第7节进行了总结。
2 强化学习基础
一个智能系统面临的环境往往是动态、复杂的开放环境。因此首先需要设计者对环境加以细分。通常情况,我们可以从以下五个角度对环境(或问题)进行分析。
表1 环境的描述
角度1 离散状态 vs 连续状态 角度2 状态完全可感知 vs 状态部分可感知 角度3 插曲式 vs 非插曲式 角度4 确定性 vs 不确定性 角度5 静态vs 动态 表1中,所谓插曲式(episodic)是指智能系统在每个场景中学习的知识对下一个场景中的学习是有用的。如一个棋类程序对同一个对手时,在每一棋局中学习的策略对下一棋局都是有帮助的。相反非插曲式(non-episodic)环境是指智能系统在不同场景中学习的知识是无关的。角度4是指智能系统所处的环境中,如果状态的迁移是确定的,则可以唯一确定下一状态。否则在不确定性环境中,下一状态是依赖于某种概率分布。进一步,如果状态迁移的概率模型是稳定、不变的,则称之为静态环境;否则为动态环境。显然,最复杂的一类环境(或问题)是连续状态、部分可感知、非插曲式、不确定的动态环境。
在强化学习技术中首先对随机的、离散状态、离散时间这一类问题进行数学建模。在实际应用中,最常采用的是马尔可夫模型。表2中给出最常用的几种马氏模型。
表2 常用的几种马氏模型
马氏模型 是否智能系统行为控制环境状态转移? 否 是 是否环境为部分可感知? 否 马尔可夫链 马氏决策过程 是 隐马尔可夫模型 部分感知马氏决策过程 基于表2中的马氏决策过程,强化学习可以简化为图1的结构。图1中,强化学习系统接受环境状态的输入s,根据内部的推理机制,系统输出相应的行为动作a。环境在系统动作作用a下,变迁到新的状态s′。系统接受环境新状态的输入,同时得到环境对于系统的瞬时奖惩反馈r。对于强化学习系统来讲,其目标是学习一个行为策略π:S→A,使系统选择的动作能够获得环境奖赏的累计值最大。换言之,系统要最大化(1)式,其中γ为折扣因子。在学习过程中,强化学习技术的基本原理是:如果系统某个动作导致环境正的奖赏,那么系统以后产生这个动作的趋势便会加强。反之系统产生这个动作的趋势便减弱。这和生理学中的条件反射原理是接近的。
(1)
如果假定环境是马尔可夫型的,则顺序型强化学习问题可以通过马氏决策过程(Markov Decision Process,MDP)建模。下面首先给出马氏决策过程的形式化定义。
马氏决策过程 由四元组S,A,R,P定义。包含一个环境状态集S,系统行为集合A,奖赏函数R:S×A→?和
文档评论(0)