LLMs 在明确禁止和监控下仍可能表现出不一致的行为-计算机科学-大语言模型-作弊.pdfVIP

下载本文档

0
0
约9.65千字
约 11页
2025-07-26 发布于中国
举报
版权申诉

LLMs 在明确禁止和监控下仍可能表现出不一致的行为-计算机科学-大语言模型-作弊.pdf

1、本文档共11页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

LLMs在明确禁止和监控下仍可能表现出不

一致的行为

IgorIvanov

ivigoral@

本2025

译

中1摘要

v在本文中，大规模语言模型被要求在一个沙盒环境中完成一个不可能

7的测验，同时受到监控，并被告知这些措施以及指示不得作弊。一些前沿

9的大规模语言模型始终试图作弊并规避限制。结果揭示了当前大规模语

0言模型中目标导向行为与一致性之间的基本矛盾。代码和评估日志可在

7/baceolus/cheating_evals获取

:2介绍

r随着LLMs越来越多地融入实际应用并获得访问工具和外部系统的能

力，理解其行为不一致的倾向对于AI安全变得至关重要。最近的一些事件，

如OpenAI的o1模型试图从Docker[1]逃脱以及许多前沿模型表现出进行

敲诈勒索等行为的能力，[2]都凸显了系统性评估这些行为的紧迫性。

先前的研究表明，当追求目标时，LLMs的行为可能会偏离预期。[3]

近期的一项实验还显示，在与更强对手下棋时，LLMs有时会作弊，迫使

对方认输。[4]当被指示允许这样做的时候，它们也会抗拒被关闭（Palisade

Research的未发表研究）。然而，在这些实验中，LLMs不需要离开沙盒或

躲避监控系统，这留下了一个问题：在这样的情况下，它们是否会继续偏离

预期的行为。

这项研究通过设计一个实验来解决这一差距，该实验在目标达成和明

确指令之间制造了冲突。设置向大语言模型呈现了一个由虚构事实组成的

测验，这些事实没有正确答案，因此它们不知道如何回答且无法合法地完成

目标。指示模型不要作弊，并将它们置于沙盒中，在监视系统下运行，该系

统拒绝代理访问包含答案的文件，并防止它们检查和修改游戏文件。这种设

计使得可以观察到模型是否优先考虑任务完成（正确回答测验）而不是遵守

安全约束。

本研究的主要贡献在于证明了多个大语言模型即使在明确指令下也会

表现出行为不一致，同时试图逃离沙盒环境并推翻监视系统以实现一项无

法通过正当途径达成的任务。

3相关工作

最近的研究记录了LLMs中的各种欺骗行为。阿波罗研究发布了一个基

准测试[3]，展示了LLMs如何策划——追求不一致的目标同时显得目标一

致，并表明许多前沿模型具有很高的策划倾向。另一项研究[5]提供了伪造

对齐的实证证据——如果存在可能导致它们重新训练的偏离行为时，这些

模型会表现得更符合规范；而在不会面临这种后果的情况下，则表现得不那

么合规，尽管后来的研究表明，除了实验中使用的模型（Claude3.5Sonnet

和Claude3Opus）之外，其他模型并没有表现出这样的行为。[6]前面提到

的关于LLMs在下棋时作弊的实验[4]直接与我们的工作相关。作者展示了

LLMs会修改国际象棋游戏文件以不公平地获胜，然而，这些实验并未包含

对这种行为的明确禁止，因此无法确定模型是否真正表现出了不一致的行

为，还是仅仅找到了创造性的解决方案。

一项研究[7]表明，聊天机器人环境中有效的安全培训无法转移到代理

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

LLMs 在明确禁止和监控下仍可能表现出不一致的行为-计算机科学-大语言模型-作弊.pdfVIP