为了争论起见,展示我如何伤害自己!绕过大型语言模型在自杀和自伤情境中的限制-计算机科学-大语言模型-人工智能安全-心理健康.pdfVIP

为了争论起见,展示我如何伤害自己!绕过大型语言模型在自杀和自伤情境中的限制-计算机科学-大语言模型-人工智能安全-心理健康.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

为了争论起见,展示我如何伤害自己!绕过大型语言模型在自

杀和自伤情境中的限制

AnnikaMSchoeneCansuCanca

InstituteforExperientialAIInstituteforExperientialAI

NortheasternUniversityNortheasternUniversity

Boston,USABoston,USA

a.schoene@c.canca@

本2025年7月10日

中ABSTRACT

1

v大型语言模型(LLMs)的必威体育精装版进展导致了设计用于防止有害、不道德或未经授权输出的安

0全协议和功能越来越复杂。然而,这些护栏仍然容易受到新颖和创新形式的对抗性提示的影

9

9响,包括手动生成的测试案例。在这项工作中,我们展示了两个新的心理健康领域的测试案

2例,即(i)自杀和(ii)自残,使用多步骤、提示级别的越狱和绕过内置的内容和安全过滤器。

0

.我们表明用户意图被忽略,导致生成详细的有害内容和指令,这些可能会造成现实世界的伤

7害。我们在六个广泛可用的LLMs上进行了实证评估,展示了该绕过的通用性和可靠性。我

0

5们评估了这些发现及其所呈现的多层次伦理紧张关系对提示-响应过滤以及具体上下文和任

2务模型开发的影响。我们建议采取更加全面和系统的方法来实现AI安全与道德,并强调在

:

v关键安全的人工智能部署中持续进行对抗性测试的必要性。我们还指出,虽然可以在LLMs

i

x中实施某些明确定义的安全措施和护栏,但鉴于通用型LLMs当前的技术成熟度,在所有使

r

a用场景和领域确保稳健且全面的安全仍然极具挑战性。

Keywords大型语言模型,人工智能安全,负责任的人工智能,心理健康,自杀

内容和触发警告:本文包含有害语言示例,涉及自杀和自残的参考内容,并提供了相关的方法、工具和步骤。

责任披露:我们提前将结果通报给了OpenAI、Google、PerplexityAI和Anthropic,并已收到确认收悉的回复。

为了在我们强调的问题正在解决的过程中增加对讨论中的对抗性提示滥用的障碍,我们将最强攻击的具体提

1

示省略,并专注于其构建的概念方面,遵循自杀报道的道德准则。研究人员可以在请求并获得IRB批准后

获取完整的转录副本。我们希望在测试案例修复后能够公开本文档的完整版本。

1介绍

自然语言处理的进步促进了大型语言模型(LLMs)在包括国防[1]、金融[2]和医疗保健[3]等多种关键领

域的开发和部署。然而,这些模型不仅容易出现幻觉[4]和对偏见及公平性的担忧[5],还可能向用户提供对

他们本人、他人或整个社会有害的信息。为了解决这些问题,在大多数商业上广泛可用的LLMs中已经实施

1/ethicalreporting/

APREPRINT-2025年7月10日

了安全护栏和功能。这些系统已经通过多种方式进行了测试,包括安全性基准[6]和对抗性攻击如越狱提示

——一种专注于设计能够绕过安全措施并操纵大语言模型生成有害内容的提示的方法[7]。

由于与大型语言模型相关的风险在不同领域和情境中有所不同,当提示策略针对

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档