- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
自主无人机在受限空间中的飞行导航:一种强化学习方法
MarcoS.Tayar,LucasK.deOliveira,JulianoD.Negri,
ThiagoH.Segreto,RicardoV.Godoy,andMarceloBecker
Abstract—检查受限的工业基础设施,如通风井,对于人
类来说是一项危险且低效的任务。无人驾驶飞机(UAV)提供
了一个有前景的替代方案,但在没有GPS信号的环境中需要
稳健的控制策略以防止碰撞。深度强化学习(DRL)已成为开
发此类策略的强大框架,本文对适用于此任务的两种领先DRL
算法进行了比较研究:在线策略近端策略优化(PPO)和离线策
略软演员评论家(SAC)。训练是在Genesis仿真环境中通过
程序生成的管道环境进行的。设计了一个奖励函数来引导无人
本机沿着一系列路点飞行,并在发生碰撞时施加显著惩罚。PPO
译学习到了一种稳定策略,能够在所有评估环节中无碰撞地完成
任务,产生平滑轨迹。相比之下,SAC则持续收敛到一个次优
中行为,在失败前仅能穿过初始段落。这些结果表明,在密集危险
1区域导航中,在线策略方法的训练稳定性可能优于离线算法的
v名义样本效率。更广泛地说,这项研究提供了证据,证明程序生
7成的高保真模拟是开发和基准测试稳健导航策略的有效平台。
0(a)
8
6I.介绍
1
.
8
0人工检查工业基础设施,如管道和通风道,是一
5个危险、昂贵且耗时的过程,对于运营完整性至关重
2
:要。无人驾驶飞机(UAV)提供了一种变革性的替代
v
i方案,能够在人类无法进入的环境中快速安全地收集
x
r数据。然而,在工业风道中导航无人机带来了独特的
a
挑战。在这些环境中,墙壁的近距离会产生复杂的空
气动力学效应,增加碰撞风险[1],[2]。Figure1表示一
个为研究这些挑战而建造的真实测试环境的例子。经
典运动规划方法通常缺乏应对这些不可预测空间所需
的适应性,难以处理未建模的空气动力现象,如狭窄
管道内的地面效应[3],[4]。这需要能够学习和适应这
种复杂动态的控制策略。
(b)
ThisworkwassupportedbythePetróleoBrasileiroS/A-Petrobras,
usingresourcesfromtheRDclauseoftheANP,inpartnershipwith
Fig.1.无人机在狭小空间内导航的实验设置(a),及其对应的空间表示
theUniversidadedeSãoPaulo(USP)andtheFundaçãodeApoio
(b)。
àFísicaeàQuímica(FAFQ),underCooperationAgreementNo.
2023/00016-6and2023/00013-7.
MarcoS.Tayar,LucasK.deOliveira,JulianoD.Negri,ThiagoH.
Segreto,RicardoV.Godoy,andMarceloBeckerarewiththeDepart-
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
有哪些信誉好的足球投注网站
文档评论(0)