因果反射与语言模型.pdfVIP

下载本文档

0
0
约1.82万字
约 10页
2025-10-13 发布于北京
举报
版权申诉

因果反射与语言模型.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

因果反射与语言模型

AbiAryanandZacYung-ChunLiu

AbideAI

abi@,zac@

Abstract

本虽然大型语言模型（LLMs）表现出令人印象深刻的流畅性和事实记忆，但在

稳健的因果推理方面却存在困难，经常依赖于偶然的相关性和脆弱的模式。

译同样，传统的强化学习（RL）代理也缺乏因果理解，在优化奖励时没有建模

中为什么行动会导致特定的结果。我们引入了因果反思框架，该框架明确地将

因果关系建模为一个关于状态、动作、时间和扰动的动态函数，使代理能够

v推理延迟和非线性效应。此外，我们还定义了一个正式的反思机制，用于识

5别预测结果与观察到的结果之间的不匹配，并生成因果假设以修订代理的

4内部模型。在此架构中，LLMs不是作为黑盒推理器，而是充当结构化推断

4引擎，将形式化的因果输出转化为自然语言解释和反事实陈述。我们的框架

.为因果反思代理奠定了理论基础，这些代理能够在不断变化的环境中适应、

8自我纠正并传达因果理解。

v1介绍

a人工智能能力的指数级增长加剧了对不仅理解发生了什么，而且理解为什么发生的系统的需

求。传统的强化学习（RL）范式虽然在最大化奖励信号方面取得了成功，但从根本上缺乏建

模支配动态系统的时序因果关系的能力(Kicimanetal.,2023;Seitzeretal.,2021)。当代理必须

适应不断变化的环境、解释其决策或跨领域转移所学行为时，特别是在商业和企业环境中，

这种限制尤为明显，在这些环境中，具有韧性的决策系统至关重要。同样，虽然大型语言模

型（LLMs）在合成知识和推理静态信息方面表现出色，但它们也缺乏对时间背景下的因果

关系的内在理解(Jiaoetal.,2024;Duetal.,2017)。尽管前景广阔，将LLMs与因果推理相结

合以进行历时决策的研究仍处于探索阶段。

应对这些挑战需要从基于相关性的模型转向一个新的范式。为此，因果推理方面的必威体育精装版进展

提供了一条有希望的前进道路，通过用设计来捕捉稳定和不变关系(Dengetal.,2023)的可解

释因果框架来替代它们。在强化学习中，这种方法直接面对关键限制，防止智能体陷入虚假

相关性，并使它们能够推广到超出训练环境范围之外(Wanetal.,2024)。一些研究已经开始

通过整合结构因果图来探索因果强化学习，以提高样本效率和鲁棒性(Liuetal.,2025;Peters

etal.,2017)。然而，这些方法通常假设固定的因果结构，因此无法捕捉随着时间变化的因果

关系动态性质(Heetal.,2025)。此外，当前将大语言模型推理能力与RL环境集成的方式仍

然很表面化，缺乏对状态理解的原则框架。这种差距在需要智能体推理延迟效应、时间依赖

性和因果机制演变的情境中尤为明显，即在因果性随着时间跨度展开的真实世界部署场景中

至关重要的能力。

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

因果反射与语言模型.pdfVIP