在深度强化学习中通过集成防御方法提高鲁棒性-计算机科学深度强化学习-自动驾驶.pdfVIP

在深度强化学习中通过集成防御方法提高鲁棒性-计算机科学深度强化学习-自动驾驶.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

在深度强化学习中通过集成防御方法提高鲁棒性

1121

AdithyaMohan,DominikRößle,DanielCremersandTorstenSchön

Abstract—近期在深度强化学习(DRL)领域的进展展示

了其在各个领域中的应用潜力,包括机器人技术、医疗保健、能

源优化和自动驾驶。然而,一个关键问题仍然存在:当面对对抗

性攻击时,DRL模型的鲁棒性如何?虽然现有的防御机制如对

抗训练和蒸馏增强了DRL模型的韧性,但在特定于自动驾驶场

景中整合多种防御措施的研究仍存在显著差距。本文通过提出

一种新颖的集成式防御架构来填补这一空白,以减轻自动驾驶

中的对抗性攻击。我们的评估表明,所提出的架构显著提升了

DRL模型的鲁棒性。与FGSM攻击下的基线相比,我们的集

本成方法将平均奖励从5.87提高到了18.38(增加了超过213%),

并且在高速公路场景和合并场景中,将平均碰撞率从0.50降低

译到0.09(减少了82%),超越了所有单一的防御策略。

中Fig.1.提出的深度强化学习对抗攻击集成防御框架概述。在推理过程中,

I.介绍代理接收到由对抗噪声快速梯度符号方法(FGSM)引起的扰动观测值()。

1这个扰动状态同时通过三个独立的防御模块:(i)随机噪声,引入额外的受

v强化学习(RL)已成为开发自动驾驶系统的关键控噪声以中和对抗模式,(ii)自动编码器,使用学习到的标准表示重构状态,

0

以及(iii)主成分分析(PCA),将输入投影到低维子空间以抑制不相关噪

7方法,使车辆能够通过与环境的互动和以奖励形式提

0声。这些模块的输出通过简单平均聚合形成一个鲁棒修正观测值,然后由固

7供的反馈来学习最优决策策略[1]。当结合深度神经网定的DRL策略用来选择行动。该框架完全在推理时运行且不需要重新训练

1.络时,深度强化学习(DRL)赋予代理在复杂、高维政策,使其适合于自动驾驶等安全关键环境中的实际部署。

7

0状态和动作空间中导航的能力,从而推动了自动驾驶

5技术的重大进展。DRL在各种自动驾驶任务中发挥了驾驶代理做出错误的车道变换决策,可能会引发碰撞

2

:重要作用,包括路径规划、行为建模、交通协商以及[6]。类似地,在物理世界中的攻击,如在停车标志上贴

v

i自适应巡航控制[2]。贴纸,可以欺骗基于DRL的感知模块产生误分类[7]。

x

r除了自动驾驶之外,DRL还在其他领域显示出成这些漏洞引发了人们对DRL在实际部署中可靠

a

功,如医疗保健中的个性化治疗策略[3]、机器人技术性的严重关切。以医疗保健为例,对抗性输入可能导

中处理动态任务[3]、能源系统的需求响应优化[4]以致错误的治疗建议。在自动驾驶领域,它们可能导致

及金融领域的投资组合管理和欺诈检测[3]。异常或不安全的驾驶行为,特别是在密集交通或城市

尽管具有变革潜力,DRL系统在现实世界应用环境中。随着DRL越来越被整合到此类关键系统中,

中,尤其是在安全关键领域,面临重大挑战。一个主要确保其可信度对于防止灾难性后果和促进公众接受[8]

问题是它们容易受到对抗攻击的影响,这些精心设计至关重要。

的输入旨在利用模型中的弱点并操纵代理的行为。例为了解决这些安全挑战,人们提出了各种对抗防

如,在自主驾驶中,对摄像头或雷达数据等传感器输御机制。这包括对抗训练、鲁棒策略优化、检测算法

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档