- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
缓解教育领域大型语言模型中特洛伊提示链的问题:
实验结果与检测工具设计
RichardM.Charles,Ph.DJamesH.Curry,Ph.D
CharlesAnalytics,AuroraUniversityofColorado,Boulder
RichardB.Charles
本CharlesAnalytics,Aurora
译2025年7月23日
中
1
v
7摘要
0
2大型语言模型(LLMs)在K–12教育中的整合提供了变革性的机遇和新兴的风险。
4本研究探讨了学生如何可能通过特洛伊化提示来引出不安全或非预期的输出,从而绕
1
7.过已建立的内容审核系统及其安全防护措施。通过一项涉及模拟K–12查询和多轮对话
0的系统实验,我们揭示了GPT-3.5和GPT-4的关键漏洞。本文介绍了我们的实验设计、
5
2详细发现以及一个原型工具TrojanPromptGuard(TPG),用于自动检测并缓解特洛伊化
:
v的教育提示。这些见解旨在为AI安全研究人员和教育技术专家提供有关如何安全部署
i
x
rLLMs的建议。
a
1介绍
像OpenAI的GPT系列这样的大型语言模型在教室中越来越被用于辅导、作业帮助和
课程规划。然而,如果学生设计提示来利用审核漏洞,这些模型可能会无意中生成不安全
的内容。本研究调查了此类脆弱性,重点关注教育环境中的提示操控。
安全研究人员和威胁情报公司,包括开放worldwide应用安全项目(OWASP)和Crowd-
Strike,已经开始追踪提示注入和模型规避策略作为人工智能系统中的严重攻击载体。他们
的工作强调,尽管LLMs不是确定性程序,但仍然可以通过巧妙设计的语言链进行强制
操控。
作为回应,黑客和人工智能爱好者通过公共平台开发并分享了越狱策略。例如,诸如
HackGPT、JailbreakGPT和Reddit论坛之类的网站已成为发布和改进提示利用的热门场所。
1
这些包括“提示三明治”、角色扮演和上下文污染策略,诱使LLMs提供受限或操纵的结果。
这些利用方法被公开记录、可重复,并经常作为开源实验共享。
以当前的速度,人工智能应用的效能每5.7个月翻一番。这种前所未有的技术进步速
度导致了攻击者与安全研究人员之间的竞争加速,并突显了在K–12教育等敏感领域有效
检测机制的紧迫性。
2背景及相关工作
提示注入攻击现已被认定为AI安全中的关键威胁类别。组织如OWASP在其LLMAI
安全十大列表中记录了提示注入漏洞,强调了提示操纵、上下文劫持和身份泄露的重要性。
同样,网络安全公司如CrowdStrike已经开始对AI特定的红队场景进行分类,特别是在教
育、医疗保健和军事应用等高风险环境中。
一个不断增长的AI黑客和爱好者社区为诸如HackGPT、JailbreakGPT以及众多分享越
狱提示配方的GitHub仓库等开源平台做出了贡献。这些平台充当了众包实验室的角色,在
这里新的规避方法——如模拟道德框架、设定对话陷阱或嵌入讽刺——被迭代地精炼并针
对生产LLM进行测试。教育领导者和从业者们很清楚,企业正在竞相通过AI应用程序确
保利润空间,而对发布的LLM模型中的安全问题和固有偏见却缺乏严肃的关注。
研究还围绕构建和部署对抗性GPT模型展开,这些专门的模型被配置为对其他LLM
进行红队测试。Ziegler等人(2023)和Zou等人(2023)的研究表
您可能关注的文档
- 超越架构:评估上下文嵌入在社交媒体上检测双相障碍的作用-计算机科学-双相情感障碍-长短期记忆网络-社 交媒体-自然语言处理.pdf
- 使用模算术优化神经网络高效破解仿射加密方案-计算机科学-机器学习-神经网络-仿射密码.pdf
- 为聋人和听力障碍者开发一种 AI 引导的辅助设备-计算机科学-深度学习-声音定位-声音定位-人工智能.pdf
- 关于无线通信中的轻量级语义图像分割的分解-计算机科学-人工智能-语义通信-语义图像分-6G.pdf
- DM-RSA: 具有双模数的 RSA 扩展-计算机科学-机器学习-密码系统-中国剩余定理.pdf
- 基于大规模浮动车数据的交通信号相位和时间估计-计算机科学-机器学习-交通信号-算法.pdf
- 简约撕纸百叶窗式旅游相册旅行画册图片商务文化宣传通用模板39.pptx
- 2024年保险监管,相关保险服务项目项目投资筹措计划书代可行性研究报告.docx
- 2024年运载火箭控制系统仿真实时处理系统投资申请报告代可行性研究报告.docx
- 2024年食用香精项目项目投资申请报告代可行性研究报告.docx
- 清新绿色简约励志商务年终年中工作总结述职汇报动态通用模板1.pptx
- 清新绿色简约励志商务年终年中工作总结述职汇报动态通用模板16.pptx
- 简约撕纸百叶窗式旅游相册旅行画册图片商务文化宣传通用模板32.pptx
- 清新绿色简约励志商务年终年中工作总结述职汇报动态通用模板4.pptx
- 简约撕纸百叶窗式旅游相册旅行画册图片商务文化宣传通用模板30.pptx
- 清新绿色简约励志商务年终年中工作总结述职汇报动态通用模板5.pptx
- 简约撕纸百叶窗式旅游相册旅行画册图片商务文化宣传通用模板35.pptx
- 清新绿色简约励志商务年终年中工作总结述职汇报动态通用模板7.pptx
- 简约撕纸百叶窗式旅游相册旅行画册图片商务文化宣传通用模板34.pptx
- 清新绿色简约励志商务年终年中工作总结述职汇报动态通用模板20.pptx
文档评论(0)