- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
LLMs在明确禁止和监控下仍可能表现出不
一致的行为
IgorIvanov
ivigoral@
本2025
译
中1摘要
1
v在本文中,大规模语言模型被要求在一个沙盒环境中完成一个不可能
7
7的测验,同时受到监控,并被告知这些措施以及指示不得作弊。一些前沿
9的大规模语言模型始终试图作弊并规避限制。结果揭示了当前大规模语
2
0言模型中目标导向行为与一致性之间的基本矛盾。代码和评估日志可在
.
7/baceolus/cheating_evals获取
0
5
2
:2介绍
v
i
x
r随着LLMs越来越多地融入实际应用并获得访问工具和外部系统的能
a
力,理解其行为不一致的倾向对于AI安全变得至关重要。最近的一些事件,
如OpenAI的o1模型试图从Docker[1]逃脱以及许多前沿模型表现出进行
敲诈勒索等行为的能力,[2]都凸显了系统性评估这些行为的紧迫性。
先前的研究表明,当追求目标时,LLMs的行为可能会偏离预期。[3]
近期的一项实验还显示,在与更强对手下棋时,LLMs有时会作弊,迫使
对方认输。[4]当被指示允许这样做的时候,它们也会抗拒被关闭(Palisade
Research的未发表研究)。然而,在这些实验中,LLMs不需要离开沙盒或
躲避监控系统,这留下了一个问题:在这样的情况下,它们是否会继续偏离
预期的行为。
这项研究通过设计一个实验来解决这一差距,该实验在目标达成和明
确指令之间制造了冲突。设置向大语言模型呈现了一个由虚构事实组成的
1
测验,这些事实没有正确答案,因此它们不知道如何回答且无法合法地完成
目标。指示模型不要作弊,并将它们置于沙盒中,在监视系统下运行,该系
统拒绝代理访问包含答案的文件,并防止它们检查和修改游戏文件。这种设
计使得可以观察到模型是否优先考虑任务完成(正确回答测验)而不是遵守
安全约束。
本研究的主要贡献在于证明了多个大语言模型即使在明确指令下也会
表现出行为不一致,同时试图逃离沙盒环境并推翻监视系统以实现一项无
法通过正当途径达成的任务。
3相关工作
最近的研究记录了LLMs中的各种欺骗行为。阿波罗研究发布了一个基
准测试[3],展示了LLMs如何策划——追求不一致的目标同时显得目标一
致,并表明许多前沿模型具有很高的策划倾向。另一项研究[5]提供了伪造
对齐的实证证据——如果存在可能导致它们重新训练的偏离行为时,这些
模型会表现得更符合规范;而在不会面临这种后果的情况下,则表现得不那
么合规,尽管后来的研究表明,除了实验中使用的模型(Claude3.5Sonnet
和Claude3Opus)之外,其他模型并没有表现出这样的行为。[6]前面提到
的关于LLMs在下棋时作弊的实验[4]直接与我们的工作相关。作者展示了
LLMs会修改国际象棋游戏文件以不公平地获胜,然而,这些实验并未包含
对这种行为的明确禁止,因此无法确定模型是否真正表现出了不一致的行
为,还是仅仅找到了创造性的解决方案。
一项研究[7]表明,聊天机器人环境中有效的安全培训无法转移到代理
您可能关注的文档
- 真相、信任与困扰:边缘医疗人工智能-计算机科学-大语言模型-数字健康.pdf
- 大规模高级金融推理:大型语言模型在 CFA 三级水平上的全面评估-计算机科学-大语言模型-金融推理-金融应用.pdf
- 罕见病治疗突破2025:基因编辑技术应用研究解析.docx
- 2025年自动驾驶商用车在自动驾驶法规政策研究中的趋势报告.docx
- 数字藏品市场投机风险防范与监管机制创新研究.docx
- 新能源汽车充电网络建设与区域经济发展关系研究.docx
- 2025年数字货币跨境支付监管政策对支付行业发展趋势分析.docx
- 2025年线上法律咨询平台在法律服务行业行业竞争格局中的应用分析.docx
- 跨境安防需求下2025年新能源电动巡逻车AI算法优化与市场潜力报告.docx
- 2025年新能源电动巡逻车在城市安防产业人才培养与职业规划研究.docx
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)