- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于Spot的高性能强化学习:使用分布性度量优化模拟参数
A.J.Miller,FangzhouYu,MichaelBrauckmann,andFarbodFarshidian
Abstract—本工作概述了高性能强化学习策略部署的技
术细节,使用Spot强化学习研究员开发工具包以访问低级
电机功能在波士顿动力公司的Spot上。这代表了首次公开
演示在Spot硬件上部署端到端强化学习策略,训练代码通过
NVIDIAIsaacLab公开提供,并且部署代码可通过波士顿
动力公司获得。我们利用Wasserstein距离和最大均值差异
来量化在硬件和仿真中收集的数据的分布不相似性以测量我们
的模拟到现实差距。我们将这些度量用作协方差矩阵适应进化
策略的评分函数,以优化Spot无法测量或难以测量的模拟参
本数。我们的建模和训练过程产生了能够实现多种步态(包括飞
行阶段)的高质量强化学习策略。我们部署了速度超过5.2米/
译秒的策略,超过了Spot默认控制器最大速度的三倍,并且具
中备对滑动表面的鲁棒性、干扰抑制以及前所未有的整体敏捷性。
我们详细介绍了我们的方法并发布了代码以支持未来使用低级Fig.1.在平直轨道上以5.2米/秒的速度飞行时出现跳跃。
3
vAPI在Spot上的工作。
7化学习策略的一个示例。
5I.介绍
8
7
1波士顿动力的Spot[1]因为开门[2]、在工厂工作我们的贡献如下:
.
4[3]以及其多样的舞蹈[4]而闻名于世。它激发了公众1)一种受生成学习技术启发的评估程序,用于测量
0
5的好奇心和机器人专家关于腿式机器人在未来日常生模拟到现实的差距以及一种选择模拟器参数的
2活中的可能形态的想象力。随着其软件开发工具包[5]优化程序
:
v的发布和硬件平台的商业化推出,Spot为高度灵活的2)斯pot硬件上的首个端到端RL控制策略及开源
i
x机器人迈出了成功应用于现实世界的商业应用的第一训练代码
r
a步。在今年早些时候的另一个步骤中,波士顿动力展3)我们控制策略的扩展能力演示,包括比默认Spot
示了他们首次在其控制堆栈[6]中引入强化学习(RL)控制器高出三倍以上的最大前向速度。这些结果
技术。的视频可以在网上找到。1
在此基础上,我们在本研究中展示了首次在Spot
硬件上训练并部署完全学习的控制策略的过程,描述II.相关工作
了仅使用机载传感的模拟到现实差距量化程序,并基过去十年已经开发了许多高度复杂的全电动四足
于此量化提供了仿真参数优化过程。我们通过训练一机器人,如Spot。这些包括麻省理工学院的Cheetah
个策略来证明我们的流程的能力,以推动Spot的极3[7]、意大利技术研究院的HyQ[8]以及ANYbotic公
限。我们展示了我们的端到端策略的新速度、敏捷性司的ANYmal[9]。传统上,这些系统由基于模型的优
和鲁棒性。我们将我们的建模、训练和部署描述为研化方案控制,如模型预测控制(MPC)[10],[11]和全
究人员和工程师在Spot上训练并部署他们自己的强身控制(WBC)[12]。但近年来,强化学习已经证明
了自己是一种可靠、高性能且稳健的工具,在为现实
RAIInstitute,Cambridge,MA02139,USA:
您可能关注的文档
- 通过信息几何和量子度量重新思考大语言模型训练-计算机科学-大语言模型-模型训练.pdf
- 非刚性运动校正通过粗到细扩散模型进行 MRI 重建-计算机科学-扩散模型-磁共振成像.pdf
- SoccerDiffusion-从游戏记录中学习端到端的人形机器人足球技术-计算机科学-人工智能-类人机器人.pdf
- 增强基于大语言模型的量子代码生成与多智能体优化和量子纠错-计算机科学-量子计算-多智能体-大语言模型.pdf
- 基于数字孪生的隐私保护手术室工作流程分析-计算机科学-数字孪生-隐私保护.pdf
- 学术数据库研究从这里何去何从?-计算机科学-数据库-人工智能.pdf
- 医疗健康服务需求与政策研究方法.pptx
- 呼吸系统疾病诊断与治疗新技术应用研究.pptx
- 坐骨神经痛的针灸恢复.pptx
- 医学人文与患者沟通艺术.pptx
文档评论(0)