增强学习专题.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
增强学习专题

10.7 部分可观测状态 在某些应用中,智能主体并不确切的知道系统状态。智能主体配备以传感器,传感器返回观测,而智能主体使用这些观测对系统状态进行估计。比如我们有一个在房间内导航的机器人。这个机器人也许并不知道其在房间内的确切位置。机器人可能装备了一个照相机,使用它来记录传感观测。虽然这样并不能告诉机器人其确切的状态但是可以提供关于其可能状态的提示信息。例如,这个机器人可能只知道其右边有一堵墙。 这一场景类似于一个马尔可夫决策过程,不同之处在于执行动作 之后,新的状态 是未知的,但是有一个观察 ,它是一个关于 和 的随机函数 : 这称为部分可观测马尔可夫 决策过程。也就是说,我们需要从观测来推断状态并据此执行动作。如果智能主体认为其处于状态 的概率为0.4而处于状态 的概率为0.6,则任一动作的值就是0.4乘以在 状态执行该动作的值加上0.6乘以在 状态执行该动作的值。 马尔可夫性质对于观测而言并不成立:下一状态的观测并不仅仅依赖于当前的动作和观测。当只存在有限的观测的时候,两个状态表面上看起来可能是一样的,但是实际上却是不一样的,而且如果这两个状态要求执行不同的动作,那么就会导致以累积奖励为度量的性能上的损失。 在任何时候,智能主体都可以对最可能的状态进行计算并执行相应的动作。或者它可以执行动作来收集信息并减小不确定性,例如有哪些信誉好的足球投注网站一个地标,或停下来询问方向等。这意味着信息价值的重要性,智能主体根据动作所提供的信息,所产生的奖励大小以及它们如何改变环境状态来选择动作。 为了保持整个过程是马尔可夫的,智能主体维护一个内部的信任状态 来对其经历进行总结(见图10-6)。智能主体有一个状态估计子,它基于上一动作 当前观测 和前一信任状态 来更新信任状态 。智能主体还有一个策略 ,与完全可观测环境中所使用的真实状态相反, 策略基于这个信任状态来产生 * 增强学习 小组成员 : 赵儒桐 李福燚 周通 10.1 基于学习的分类 监督学习:以概率函数,代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。 非监督学习:采用聚类方法,学习结果为类别。典型的非监督学习有发现学习,竞争学习等。 增强学习:以环境反馈(奖/惩信号)作为输入,以估计和动态规划技术为指导的一种学习方法。 10.2增强学习的背景 增强学习的两个应用-------下国际象棋的机器和置于迷宫中的机器人。 假设我们要构建一个学习下国际象棋的机器。在这种情况下,我们不能使用监督学习,原因有二:首先,请一位国际象棋老师带领我们遍历许多棋局并告诉我们每个位置的最佳棋步的代价非常昂贵。其次,在很多情况下,根本就没有最佳棋步;一个棋步的好坏依赖于其后的多个棋步。单一的棋步并不算数;而如果经过一个棋步序列我们赢得了比赛,则该棋步序列才是最好的。而整个过程唯一的反馈是在最后我们赢得或是输掉棋局时才产生。 机器人按照四个罗盘方向之一进行移动,并进行一系列的移动到达迷宫出口。只要机器人在迷宫中,就不存在反馈,并且机器人尝试各种移动,直至到达出口,只有这时它才得到一个奖励。在这种情况下,机器人不存在对手,但是我们可能更偏好更短的路径,这意味着我们是在和时间比赛。 这两个应用有多个共同点:存在一个称之为智能主体(agent)的决策者,并置其于某一环境中(见图10-1)。在国际象棋的例子中,棋手是决策者而环境是棋盘;在第二个例子中,迷宫是机器人的环境。在任何时候,环境总是处于某种状态,该状态来自于一组可能的状态之一,例如,棋盘的布局状态,机器人在迷宫的位置。决策者可以做一组可能的动作:棋盘上棋子的合法移动,机器人沿着可能的方向移动而不会撞墙等。一旦选择并做了某一动作,状态就随之改变。问题的解决需要执行一系列的动作,之后我们才得到反馈,反馈以极少发生的奖励的形式给出,通常只有在完整的动作序列执行完毕才发生。奖励对问题进行了定义,同时是构建一个会学习的智能主体所必须的。会学习的自能主体学习解决一个问题的最佳步骤,其中“最佳”是以获取最大累积奖励的动作序列来量化。以上就是增强学习的背景。 图10-1 智能主体和环境进行交互 在环境的任意一个状态,自能主

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档