基于强化学习的交通灯控制与车辆诱导算法.docVIP

下载本文档

22
0
约1.85千字
约 2页
2017-05-20 发布于广东
举报
版权申诉

基于强化学习的交通灯控制与车辆诱导算法.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于强化学习的交通灯控制与车辆诱导算法.doc

　　基于强化学习的交通灯控制与车辆诱导算法摘要：城市交通控制的核心是由交通灯控制系统和车辆诱导系统两部分组成，实现在空间上对交通流进行分流和在时间上对交通灯进行动态配时。文章设计基于Q学习的交通灯控制算法和基于Sarsa学习的车辆诱导算法，从对系统整体性能的角度出发利用协同控制策略，更好地解决城市道路交通拥堵问题。中国 1/vie 　　关键词：交通灯控制；车辆诱导；Q学习；Sarsa学习　　引言　　针对我国城市道路交通的现状，在交通灯控制系统和车辆诱导系统独立实施的基础上，以交通道路信息的协同为基础，从协同模式着手。　　越来越多的学者致力于智能交通系统的研究，提出很多交通控制策略。Bell等人提出的交通灯控制与车辆诱导协同模型有低水平的数据共享方式、高层次的策略交互方式，主要考虑了数据信息的共享[1]。孙建平等人在基于Agent的理论上提出交通灯控制与车辆诱导协同模型，并对基于知识模型的多智能体交通控制进行研究[2]；龚等人在对交通灯控制和车辆诱导分别进行研究的基础上，提出了融合算法来提高两系统之间的协同效果，从而提高了交通系统的性能[3]。Mirchandani等人设计研究了交通灯控制与车辆诱导偏重式控制系统，两个系统在数据和策略实施上都进行协同控制，更好的利用交通信息[4]。　　在实际的交通控制策略中，交通灯控制策略和车辆诱导策略在信息产生、数据处理和策略实施等多个方面应相互协同。交通控制系统主要采用的基于Q学习的交通灯控制算法和基于Sarsa学习的车辆诱导算法来提升整体的交通控制系统的性能。　　1 问题分析　　1.1 多智能体　　多智能体系统（MAS，Multi-Agent-System）是多个智能体组成的集合，它的目标是将大而复杂的系统建设成小的、彼此互相通信和协调的，易于管理的系统。　　1.2 强化学习　　强化学习过程中Agent判断当前状态，选择一个动作作用于环境，环境在动作的影响下发生变化，并反馈给Agent一个奖惩值，Agent根据奖惩值进行下一个动作的选择，即Agent通过不断试错与环境进行交互获得信息。　　2 基于Q学习的交通灯控制策略　　本文设计一种基于Q学习的自适应交通灯控制策略。每个交通灯作为Q学习的Agent，Agent根据交叉口车道上车辆饱和度选择交通灯绿灯时间作为Agent的动作，车辆在交叉口处车道上的平均行驶时间作为Q学习的回报函数值。学习系统与环境不断的交互，获得反馈值并调整状态到动作的映射策略。　　Q学习更新公式如下所示：　　式中，参数？琢是学习率，参数？酌是折扣率，R（s，a）即为动作a作用于环境的反馈值。Q（s，a）为R（s，a）的累积值。Agent将根据系统的反馈值来进行Q（s，a）的更新。　　2.1 状态描述　　交通环境中的状态一般是连续的，但强化学习却是应用在离散空间下的求解，所以需要把交叉口状态进行离散化。本文在离散化过程中，把0到1的之间的车辆饱和度合理的离散化为四个等级。　　根据交叉口各方向车道的车辆饱和度进行描述，对于有n个方向交叉口，其状态描述为s（d1，d2，kdn），其状态空间即为4n。其中，di表示第i个入口车道的车辆饱和度。　　2.2 动作选择　　本文使用Boltzmann策略进行动作选择，公式如下所示：　　式中，A为交通灯的动作集合，p[a|s]为交通灯在状态s选择动作a的概率。？子为温控参数，温控参数越大，不同Q值对应的动作选择概率就越相近；温控参数越小，Boltzman策略与贪婪策略越相似。　　3 基于Sarsa?ann策略进行动作选择，公式如下：　　式中，A为车辆的动作集合，p[a|s]为车辆在状态s选择动作a的　　概率，？子为温控参数。　　4 基于强化学习的交通灯控制与车辆诱导协同策略　　交通灯控制与车辆诱导协同问题实际上就是控制与交通流分配的协同问题，因此系统模型实际上就是交通灯控制模型与车辆诱导模型的协同模型。本文采用偏重交通灯控制方式的协同模型。　　4.1 偏重交通灯控制方式　　在偏重式协同下，交通灯控制系统和车辆诱导系统不是平等的关系，而是主从关系。以交通灯控制系统为主导系统的协同控制方式，就是偏重交通灯控制方式。　　假设交通灯控制系统的优化函数为C，保证交叉口处车辆延误时间最小；车辆诱导系统的优化函数为U，保证车道上车辆的行驶时间最小。