数据与模型安全 课件 第7周:后门攻击和防御.pptx

数据与模型安全 课件 第7周:后门攻击和防御.pptx

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

BackdoorAttacksandDefenses姜育刚,马兴军,吴祖煊

Recap:week61.DataPoisoningAtttacksandDefensesDataPoisoningAttacksDataPoisoningDefensesPoisoningforDataProtectionFutureResearch

BackdoorAttacksandDefensesABriefHistoryofBackdoorLearningBackdoorAttacksBackdoorDefensesFutureResearch

Backdoorvs(Pure)PoisoningPoisoningattackTrainingtimeattackChangeclassificationboundaryBackdoorattackTrainingtimeattackDoesnotchangetheoriginalboundaryAddnewboundary

后门攻击–动机模型训练大量互联网数据可能存在后门样本后门模型But,后门攻击!=投毒攻击这是两个不同的话题数据投毒是后门攻击的一种实现方式

后门攻击-流程步骤1:后门注入;步骤2:后门激活后门攻击的特点:模型在干净数据上性能不变触发器出现即预测后门类别

后门攻击-例子数字触发器物理世界攻击Guetal.Badnets:Identifyingvulnerabilitiesinthemachinelearningmodelsupplychain.?arXiv:1708.06733?(2017).

后门攻击-方法分类脏标签攻击:添加触发器并修改类别BadNets(Guetal.,2019)Trojanattack(Liuetal.,2018)Blendattack(Chenetal.,2017)净标签攻击:只添加触发器Clean-labelattack(CL)(Turneretal.,2019)Sinusoidalsignalattack(SIG)(Barnietal.,2019)Reflectionbackdoor(Refool)(Liuetal.,2020,ECCV)Videobackdoor(Zhaoetal.,2020,CVPR)Li,Yiming,etal.“Backdoorlearning:Asurvey.”?IEEETNNLS,2022.

后门攻击-优化目标隐蔽性尽量少的毒化样本尽量隐蔽的触发器尽量小的影响模型在干净样本上的性能成功率尽量高的攻击成功率可完成多目标攻击迁移性迁移到不同的训练方法迁移到不同的模型鲁棒性可躲避后门检测防御可躲避后门移除防御

后门攻击六种经典攻击所使用的触发器样式攻击成功率

ABriefHistory:TheEarlyWorkGu,Tianyu,BrendanDolan-Gavitt,andSiddharthGarg.Badnets:Identifyingvulnerabilitiesinthemachinelearningmodelsupplychain.?arXiv:1708.06733?(2017).正常模型攻击者想要安插额外功能在不改变原网络的情况下安插结果

Trojan攻击Liu,Yingqi,etal.Trojaningattackonneuralnetworks.(2017).Idea:诱导模型增强局部链接:Step1:寻找最大化激活某个神经元的patternStep2:逆向生成最大化某个类别的训练数据Step3:逆向数据+pattern-重新训练模型

Blend攻击Chenetal.Targetedbackdoorattacksondeeplearningsystemsusingdatapoisoning.?arXivpreprintarXiv:1712.05526?(2017).饰品注入饰品融合背景混合背景图像

Clean-label攻击Turner,Alexander,DimitrisTsipras,andAleksanderMadry.Clean-labelbackdoorattacks.(2018).添加对抗噪声让后门样本变难操纵潜在编码(latentcode)进行类别转移

正弦信号攻击Barnietal.Anewbackdoorattackincn

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档