- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
SIA:通过意图感知增强视觉语言模型的安全性
YoungjinNa∗SangheonJeong∗YoungwanLee†
ModulabsModulabsETRI,KAIST
ppxyn1@shultra2@yw.lee@etri.re.kr
Abstract文本之间微妙互动的风险。这些场景被称为SSU(安全
图像+安全文本→不安全输出),特别具有挑战性,
随着视觉-语言模型(VLMs)越来越多地应用于实际应因为危害并不来自于显式的关键词,而是从看似无害
本用中,图像和文本之间微妙的相互作用带来了新的安的图像和文本组合中浮现出来。尽管最近的安全框架
全风险。特别地,看似无害的输入结合在一起可能揭示如ECSO[5]尝试通过事后响应过滤和图像标题替换来
译有害意图,导致不安全的模型响应。尽管对多模态安减少伤害,但它们往往无法捕捉用户的潜在意图。它们
中全的关注日益增加,但先前的方法——通常基于事后依赖于简单的二元提示(例如,“这个回复有害吗?”)
1过滤或静态拒绝提示——难以检测此类潜在风险,尤导致在模型生成表面上无害的回复从而忽略或转移原
v其是在危害仅由输入组合产生的情况下。我们提出了始可能有害意图的情况下存在盲点。这使得不安全查
6
5SIA(通过意图意识实现安全性),这是一种无需训练询仅因回复缺乏显式警示标志而通过安全性检查。为
8
6的提示工程框架,能够主动检测和缓解多模态输入中解决这一局限性,我们提出了一种基于意图的响应优
1.的有害意图。SIA采用三阶段推理过程:(1)通过字幕化框架,在生成过程中本身纳入意图推理。我们的方法
7进行视觉抽象,(2)通过少量样本链式思维(CoT)提不是事后评估回复,而是使用少量CoT提示提前进行
0
5示推断意图,以及(3)基于意图的响应细化。SIA不意图推断。通过对图像-文本输入背后的隐含目标进行
2是依赖于预定义规则或分类器,而是动态适应从图像-推理,我们的框架主动引导模型朝向更安全、更具上下
:
v文本对中推断出的隐含意图。通过在包括SIUO、MM-文基础的输出,如图1所示。
i
xSafetyBench和HoliSafe在内的安全关键基准上的广泛
r
a实验,我们证明了SIA实现了显著的安全改进,优于
先前的方法如EyesClosed,SafetyOn(ECSO)[5]。尽我们的主要贡献如下:
管SIA在MMStar上的一般推理准确率略有下降,但
相应的安全性提高表明基于意图的推理对使VLMs与
以人为中心的价值观保持一致的有效性。•我们提出了一种无需训练的少样本提示框架,使视
觉语言模型能够在生成响应之前推理隐含意图。
•我们设计了一个意图感知的优化流水线,专门针对
1.介绍
SSU(安全图像+安全文本→不安全意图)场景,在
VLMs在从多模态输入生成连贯响应方面表现出这种场景下传统的安全过滤器经常失效。
令人印象深刻的能力。然而,随着这些模型越来越多地•SIA在包括SIUO、MM-SafetyBench和HoliSafe在
部署在安全关键应用中,一个主要挑战出现了:识
您可能关注的文档
- 多智能体强化学习在机器人化珊瑚礁样本采集中的应用-计算机科学-强化学习-自主水下机器人.pdf
- AURA:一个用于理解、推理与注释的多模态医疗代理-计算机科学-AI 代理-视觉-语言基础模型.pdf
- 不定最小二乘问题的参数块分裂预条件子-计算机科学-机器学习-算法.pdf
- 快速配电网拓扑估计通过子集和问题-计算机科学-机器学习-配电网格-图论-电力网络拓扑.pdf
- LinkedIn 中的薄弱环节:在大语言模型时代提升假档案检测能力-计算机科学-大语言模型-虚假档案检测-对抗训练.pdf
- 面向具有几何先验的准确单目三维人体姿态估计实时框架-计算机科学-机器学习-单目 3D 姿态估计-实时推断.pdf
- 面向工业级 CRM 系统的弱监督技术以提升 ASR 模型性能-计算机科学-自动语音识别-数据增强-模型微调.pdf
- 评估语音转文本 × 大语言模型 × 文本转语音组合在 AI 面试系统中的应用-计算机科学-大语言模型-语音转文本.pdf
- 面向牙买加帕图瓦音乐转录的鲁棒语音识别-计算机科学-深度学习-自动语音识别-音乐转录.pdf
- 语言对早期通过语音检测帕金森病有影响吗?-计算机科学-机器学习-多语言模型-语言标记.pdf
- 基于 MINKOWSKI 范数的语言检测:通过字符双字元组和频率分析进行识别-计算机科学-自然语言处理-语言检测-统计语言识别.pdf
最近下载
- 工程造价专业技术工作总结范文(精选10篇).docx VIP
- 基坑土方开挖及外运工程施工组织设计.docx VIP
- 12BJ1-1 工程做法(华北标BJ系列图集).doc VIP
- JBT 7538-2016 管道用篮式过滤器.pdf VIP
- 安全生产高处作业.docx VIP
- 新解读《GB_T 23722-2009起重机 司机(操作员)、吊装工、指挥人员和评审员的资格要求》必威体育精装版解读.docx VIP
- (中级)装饰美工技能鉴定理论考试题库(含答案).docx VIP
- 小流域水土流失治理服务方案.doc VIP
- 大型球铁铸件浇冒口设计原理.pdf VIP
- 福建省莆田市南门集团2023年小升初数学试卷(含答案).docx VIP
文档评论(0)