缓解教育领域大型语言模型中特洛伊提示链的问题: 实验结果与检测工具设计-计算机科学-大语言模型-安全部署.pdf

缓解教育领域大型语言模型中特洛伊提示链的问题: 实验结果与检测工具设计-计算机科学-大语言模型-安全部署.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

缓解教育领域大型语言模型中特洛伊提示链的问题:

实验结果与检测工具设计

RichardM.Charles,Ph.DJamesH.Curry,Ph.D

CharlesAnalytics,AuroraUniversityofColorado,Boulder

RichardB.Charles

本CharlesAnalytics,Aurora

译2025年7月23日

1

v

7摘要

0

2大型语言模型(LLMs)在K–12教育中的整合提供了变革性的机遇和新兴的风险。

4本研究探讨了学生如何可能通过特洛伊化提示来引出不安全或非预期的输出,从而绕

1

7.过已建立的内容审核系统及其安全防护措施。通过一项涉及模拟K–12查询和多轮对话

0的系统实验,我们揭示了GPT-3.5和GPT-4的关键漏洞。本文介绍了我们的实验设计、

5

2详细发现以及一个原型工具TrojanPromptGuard(TPG),用于自动检测并缓解特洛伊化

:

v的教育提示。这些见解旨在为AI安全研究人员和教育技术专家提供有关如何安全部署

i

x

rLLMs的建议。

a

1介绍

像OpenAI的GPT系列这样的大型语言模型在教室中越来越被用于辅导、作业帮助和

课程规划。然而,如果学生设计提示来利用审核漏洞,这些模型可能会无意中生成不安全

的内容。本研究调查了此类脆弱性,重点关注教育环境中的提示操控。

安全研究人员和威胁情报公司,包括开放worldwide应用安全项目(OWASP)和Crowd-

Strike,已经开始追踪提示注入和模型规避策略作为人工智能系统中的严重攻击载体。他们

的工作强调,尽管LLMs不是确定性程序,但仍然可以通过巧妙设计的语言链进行强制

操控。

作为回应,黑客和人工智能爱好者通过公共平台开发并分享了越狱策略。例如,诸如

HackGPT、JailbreakGPT和Reddit论坛之类的网站已成为发布和改进提示利用的热门场所。

1

这些包括“提示三明治”、角色扮演和上下文污染策略,诱使LLMs提供受限或操纵的结果。

这些利用方法被公开记录、可重复,并经常作为开源实验共享。

以当前的速度,人工智能应用的效能每5.7个月翻一番。这种前所未有的技术进步速

度导致了攻击者与安全研究人员之间的竞争加速,并突显了在K–12教育等敏感领域有效

检测机制的紧迫性。

2背景及相关工作

提示注入攻击现已被认定为AI安全中的关键威胁类别。组织如OWASP在其LLMAI

安全十大列表中记录了提示注入漏洞,强调了提示操纵、上下文劫持和身份泄露的重要性。

同样,网络安全公司如CrowdStrike已经开始对AI特定的红队场景进行分类,特别是在教

育、医疗保健和军事应用等高风险环境中。

一个不断增长的AI黑客和爱好者社区为诸如HackGPT、JailbreakGPT以及众多分享越

狱提示配方的GitHub仓库等开源平台做出了贡献。这些平台充当了众包实验室的角色,在

这里新的规避方法——如模拟道德框架、设定对话陷阱或嵌入讽刺——被迭代地精炼并针

对生产LLM进行测试。教育领导者和从业者们很清楚,企业正在竞相通过AI应用程序确

保利润空间,而对发布的LLM模型中的安全问题和固有偏见却缺乏严肃的关注。

研究还围绕构建和部署对抗性GPT模型展开,这些专门的模型被配置为对其他LLM

进行红队测试。Ziegler等人(2023)和Zou等人(2023)的研究表

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档