基于强化学习的ICRARoboMasterAI策略研究.docxVIP

基于强化学习的ICRARoboMasterAI策略研究.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

基于强化学习的ICRARoboMasterAI策略研究

?

?

陈明阳刘博茆意风

摘要:本文使用蒙特卡洛树有哪些信誉好的足球投注网站(MCTS)算法代替传统Alpha-Beta有哪些信誉好的足球投注网站算法,采用改变其他对称方面来训练非对称情况下的策略,研究对比和分析,认为确实可以找到一种通用的自我强化学习方法。

关键词:ICRARoboMaster比赛;强化学习;DQN;Actor-critic算法

:TP181???????:A

1背景

强化学习(ReinforcementLearning,RL)是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,它被引入机器学习使其更接近于最初的目标——人工智能,是人工神经网络研究的概念,比较晦涩难懂。因此,本文借助备受青年人欢迎的ICRARoboMaster(以下简称ICRA比赛)训练研究强化学习的理论问题,把抽象问题具体化、简单化。

ICRA比赛的主题为“移动操控挑战赛”,比赛主要考察移动机器人定位技术、物体抓取技术、目标识别技术,以及这些技术构成系统的整体稳定性等。通过以ICRA比赛为载体,建立研究强化学习的理论模型,利用研究训练和优化机器人在比赛中的路径和战斗能力,实现验证和优化RL理论的目的。为了使计算机更加智能化,采用训练AlphaGo的方法,即使用两个代理机器人互相战斗,通过控制运动轨迹和动作,更新优化策略,实现机器人动作升级。首先设置一个超级敌人并训练机器人去击败它,然后也升级敌人,重新训练机器人去战斗。通过这种不断反复改进和提升的方法,可以获取更优良的性能。

采用Actor-critic算法,提出并分析一类基于随机平稳策略的马尔可夫决策过程优化算法,也是两个时间尺度的算法,其中,Critic使用具有线性近似结构的时域学习,并且基于Critic提供的信息,在近似梯度方向上更新和优化Actor动作。通过研究表明,Critic的特征能够跨越由Actor的选择所规定的子空间,提出收敛性和有待解决的问题策略。

采用一个通用的强化学习算法,通过自我发挥和学习,不断优化算法,即研究在AlphaGo中应用的策略和AlphaZero的变化。由于AlphaZero不会增加训练数据,也不会在MCTS期间变换板的位置。因此,使用蒙特卡洛树有哪些信誉好的足球投注网站(MCTS)算法代替Alpha-Beta有哪些信誉好的足球投注网站算法,采用通过改变其他对称方面来训练非对称情况下的策略,找到一种通用的自我游戏强化学习方法。

2虚拟机器人环境——PyGame

2.1设置虚拟机器人环境——PyGame

PyGame是一个基于Python的虚拟格斗游戏环境,在此过程中接收来自键盘和鼠标的输入,应用编程接口和预定义的类降低了虚拟环境创建的难度。ICRA比赛的真实环境为8米*5米的场地,两个机器人的出场地位于左上角和右下角,补充场地位于黄色十字区域。机器人在补给区被修复,当它们站在补给区时,它们的生命值会持续上升,ICRA比赛的真实现场环境如图1所示。

在图1中,机器人无法通过的障碍物被显示为深灰色矩形。通过研究决定,采用重新创建ICRA比赛的新战斗环境,其中,障碍物和补给区域与原来的位置相同。为了增加决策的复杂性,增设弹药重装区,机器人可以在此区域进行重新装弹,避免子弹耗尽。

奖励规则设置如下:在所有迭代开始时,奖励被初始化为零。如果敌人被击中,那么射手的奖励将增加10点,而敌人将减少20点。如果敌人被摧毁,奖励会激增到100点,如果玩家被摧毁,奖励本身会下降到200点。弹药和生命点不会影响奖励,而生存时间将以对数形式加入奖励。

强化学习就是智能系统从环境到行为映射的学习,使奖励信号(强化信号)函数值最大,由于外部给出的信息很少,强化学习系统必须依靠自身的经历进行自我学习。通过这种学习获取知识,改进行动方案以适应环境。本研究运用AlphaZero强化学习的方式,不断完善机器人奖励机制。

2.2优化Q学习的算法

Q-learning是强化学习中的一个决策算法,是让计算机实现从一开始完全随机地进行操作,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。计算机在不断的尝试中更新自己的行为,从而一步步学习如何操作自己的行为得到高分。它主要包含四个元素:Agent、环境状态、行动、奖励。强化学习的目标就是获得最多的累计奖励。

计算机就是Agent,它试图通过采取行动来操纵环境,并且从一个状态转变到另一个状态,当它完成任务时给高分(奖励),但是当它没完成任务时,给低分(无奖励)。这也是强化学习的核心思想,所以强化学习具有分数导向性。

我们实现的深度Q学习是基于PyTorch的卷积神经网络。网络的输入是模型训练过程中PyGame环境的一个截图,输出是给定输入环境下的一个预测动作

文档评论(0)

李颖 + 关注
实名认证
文档贡献者

是个美女

1亿VIP精品文档

相关文档