马尔可夫决策过程.pptxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第四章智能网联汽车行为决策主讲人:汤忠盛

一、智能决策技术二、智能决策技术未来发展趋势4.14.24.3目录4.4交通环境行为预测(一)交通环境行为预测(二)汽车行为决策理论马尔可夫决策过程

教学目标重点难点知识目标马尔可夫决策过程马尔可夫决策过程掌握马尔可夫性质;理解马尔可夫决策过程。教学目标

4.4.1马尔可夫性质通俗地说,马尔可夫性质是指,未来只与当前状态有关,与过去无关。其数学定义为:从上式可知,当前状态包含了历史中的所有相关信息,因此,只要知道了当前状态,所有的历史信息就不再需要了。当前状态是下一个状态的充分统计数据。例如,等红绿灯时,假设你每一秒看一次灯,有了当前这一秒看到红绿灯的状态,就不需要前面看到的所有状态了,根据当前看到的状态,决定下一秒你是否继续等待。对于一个马尔可夫状态及其后续状态,状态转移概率S`定义为:

4.4.2马尔可夫决策过程一个马尔可夫决策过程,由下面的五元组定义:(S,A,T,R,γ)。(1)S代表了自动驾驶车辆所处的有限的状态空间(2)A代表了自动驾驶车辆的行为决策空间,即自动驾驶车辆在任何状态下的所有行为空间的集合。(3)状态转移函数T:T(s,s)=P(s|s,a),是一个条件概率,代表了自动驾驶车辆在状态s和动作a下,到达下一个状态s的概率。(4)激励函数R:R(s,s)代表了自动驾驶车辆在动作a下,从状态s到状态s所得到的激励。(5)y是激励的衰减因子,下一个时刻的激励便按照这个因子进行衰减;在任何一个时间,当前的激励系数为1,下一个时刻的激励系数为y,下两个时刻的激励系数为y2,依此类推。

自动驾驶车辆行为决策层面需要解决的问题,在上述马尔科夫决策过程的定义下,可以正式描述为寻找一个最优“策略”。在任意给定的状态s下,策略会决定产生一个对应的行为。当策略确定后,整个马尔科夫决策过程的行为可以看成是一个马尔可夫链。在上述马尔可夫决策过程定义下,可以达到最优收益的策略通常可以用动态规划(DynamicProgramming)的方法求解。假设转移矩阵和激励分布已知,最优策略的求解通常都是基于迭代的计算如下两个基于状态的数组。4.4.2马尔可夫决策过程

在Bellman的ValueIteration算法中,不需要进行显式的计算,而是可以将其必要的计算包括在的计算中,因此可以得到如下的ValueIteration的单步迭代计算:其中i代表迭代步骤,在i=0时使用一个初始猜测开始迭代,直到的计算趋于稳定为止。4.4.2马尔可夫决策过程

利用MDP解决自动驾驶车辆行为决策的最关键部分在于激励函数R的设计。强调的是,利用MDP解决自动驾驶车辆行为决策的最关键部分在于激励函数R的设计。在设计这一激励函数时,需要尽可能考虑如下因素。到达目的地乘坐的舒适性和下游执行的平滑性安全性和避免碰撞4.4.2马尔可夫决策过程

4.4.2马尔可夫决策过程在马尔科夫决策过程的基础上,部分可观察马尔科夫决策过程考虑了环境的部分可观察性,即智能体不能准确地得到所有的环境状态。部分可观察马尔科夫决策过程可以形式化地表示为一个六元组(S,A,?,T,O,R),其中状态集合S、动作集合A、状态转移函数T和激励函数R的定义与马尔科夫决策过程相同,MDP所不具备的观察集合和观察函数用以描述环境状态的部分可观察性:观察集合O:表示观察序列集合;观察函数?:S×A×O→[0,1],表示在给定所执行的动作O和环境状态的情况下,智能体观察序列为O的概率分布。

4.4.2马尔可夫决策过程发展:为了更好、更快的对未来的环境进行预测,估计每种行为的激励,许多最先进的部分马尔科夫决策方法的求解牺牲了规划的广度,以使自动驾驶车辆能够实现实时的决策。两类常见的近似求解方法包括:基于启发式有哪些信誉好的足球投注网站(例如,AEMS2方法)沿着最有可能的信念状态进行扩展;对高度可能的状态进行稀疏随机抽样或使用蒙特卡罗有哪些信誉好的足球投注网站技术(例如,DESPOT)。

总结1.马尔可夫性质2.马尔可夫决策过程

习题填空题1.一个马尔可夫决策过程,由()、()、()、()、()五元组定义。2.状态转移模型是()模型的核心模块,重点描述驾驶场景状态随时间的演进过程,为驾驶动作生成提供前瞻信息。

THANKYOU

文档评论(0)

达芬奇 + 关注
实名认证
文档贡献者

免责声明:本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,不得从事商业活动,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料。

1亿VIP精品文档

相关文档