SIA:通过意图感知增强视觉语言模型的安全性-计算机科学-视觉-语言模型-人工智能.pdf

SIA:通过意图感知增强视觉语言模型的安全性-计算机科学-视觉-语言模型-人工智能.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SIA:通过意图感知增强视觉语言模型的安全性

YoungjinNa∗SangheonJeong∗YoungwanLee†

ModulabsModulabsETRI,KAIST

ppxyn1@shultra2@yw.lee@etri.re.kr

Abstract文本之间微妙互动的风险。这些场景被称为SSU(安全

图像+安全文本→不安全输出),特别具有挑战性,

随着视觉-语言模型(VLMs)越来越多地应用于实际应因为危害并不来自于显式的关键词,而是从看似无害

本用中,图像和文本之间微妙的相互作用带来了新的安的图像和文本组合中浮现出来。尽管最近的安全框架

全风险。特别地,看似无害的输入结合在一起可能揭示如ECSO[5]尝试通过事后响应过滤和图像标题替换来

译有害意图,导致不安全的模型响应。尽管对多模态安减少伤害,但它们往往无法捕捉用户的潜在意图。它们

中全的关注日益增加,但先前的方法——通常基于事后依赖于简单的二元提示(例如,“这个回复有害吗?”)

1过滤或静态拒绝提示——难以检测此类潜在风险,尤导致在模型生成表面上无害的回复从而忽略或转移原

v其是在危害仅由输入组合产生的情况下。我们提出了始可能有害意图的情况下存在盲点。这使得不安全查

6

5SIA(通过意图意识实现安全性),这是一种无需训练询仅因回复缺乏显式警示标志而通过安全性检查。为

8

6的提示工程框架,能够主动检测和缓解多模态输入中解决这一局限性,我们提出了一种基于意图的响应优

1.的有害意图。SIA采用三阶段推理过程:(1)通过字幕化框架,在生成过程中本身纳入意图推理。我们的方法

7进行视觉抽象,(2)通过少量样本链式思维(CoT)提不是事后评估回复,而是使用少量CoT提示提前进行

0

5示推断意图,以及(3)基于意图的响应细化。SIA不意图推断。通过对图像-文本输入背后的隐含目标进行

2是依赖于预定义规则或分类器,而是动态适应从图像-推理,我们的框架主动引导模型朝向更安全、更具上下

:

v文本对中推断出的隐含意图。通过在包括SIUO、MM-文基础的输出,如图1所示。

i

xSafetyBench和HoliSafe在内的安全关键基准上的广泛

r

a实验,我们证明了SIA实现了显著的安全改进,优于

先前的方法如EyesClosed,SafetyOn(ECSO)[5]。尽我们的主要贡献如下:

管SIA在MMStar上的一般推理准确率略有下降,但

相应的安全性提高表明基于意图的推理对使VLMs与

以人为中心的价值观保持一致的有效性。•我们提出了一种无需训练的少样本提示框架,使视

觉语言模型能够在生成响应之前推理隐含意图。

•我们设计了一个意图感知的优化流水线,专门针对

1.介绍

SSU(安全图像+安全文本→不安全意图)场景,在

VLMs在从多模态输入生成连贯响应方面表现出这种场景下传统的安全过滤器经常失效。

令人印象深刻的能力。然而,随着这些模型越来越多地•SIA在包括SIUO、MM-SafetyBench和HoliSafe在

部署在安全关键应用中,一个主要挑战出现了:识

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档