因果反射与语言模型.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

因果反射与语言模型

AbiAryanandZacYung-ChunLiu

AbideAI

abi@,zac@

Abstract

本虽然大型语言模型(LLMs)表现出令人印象深刻的流畅性和事实记忆,但在

稳健的因果推理方面却存在困难,经常依赖于偶然的相关性和脆弱的模式。

译同样,传统的强化学习(RL)代理也缺乏因果理解,在优化奖励时没有建模

中为什么行动会导致特定的结果。我们引入了因果反思框架,该框架明确地将

因果关系建模为一个关于状态、动作、时间和扰动的动态函数,使代理能够

1

v推理延迟和非线性效应。此外,我们还定义了一个正式的反思机制,用于识

5别预测结果与观察到的结果之间的不匹配,并生成因果假设以修订代理的

9

4内部模型。在此架构中,LLMs不是作为黑盒推理器,而是充当结构化推断

4引擎,将形式化的因果输出转化为自然语言解释和反事实陈述。我们的框架

0

.为因果反思代理奠定了理论基础,这些代理能够在不断变化的环境中适应、

8自我纠正并传达因果理解。

0

5

2

:

v1介绍

i

x

r

a人工智能能力的指数级增长加剧了对不仅理解发生了什么,而且理解为什么发生的系统的需

求。传统的强化学习(RL)范式虽然在最大化奖励信号方面取得了成功,但从根本上缺乏建

模支配动态系统的时序因果关系的能力(Kicimanetal.,2023;Seitzeretal.,2021)。当代理必须

适应不断变化的环境、解释其决策或跨领域转移所学行为时,特别是在商业和企业环境中,

这种限制尤为明显,在这些环境中,具有韧性的决策系统至关重要。同样,虽然大型语言模

型(LLMs)在合成知识和推理静态信息方面表现出色,但它们也缺乏对时间背景下的因果

关系的内在理解(Jiaoetal.,2024;Duetal.,2017)。尽管前景广阔,将LLMs与因果推理相结

合以进行历时决策的研究仍处于探索阶段。

应对这些挑战需要从基于相关性的模型转向一个新的范式。为此,因果推理方面的必威体育精装版进展

提供了一条有希望的前进道路,通过用设计来捕捉稳定和不变关系(Dengetal.,2023)的可解

释因果框架来替代它们。在强化学习中,这种方法直接面对关键限制,防止智能体陷入虚假

相关性,并使它们能够推广到超出训练环境范围之外(Wanetal.,2024)。一些研究已经开始

通过整合结构因果图来探索因果强化学习,以提高样本效率和鲁棒性(Liuetal.,2025;Peters

etal.,2017)。然而,这些方法通常假设固定的因果结构,因此无法捕捉随着时间变化的因果

关系动态性质(Heetal.,2025)。此外,当前将大语言模型推理能力与RL环境集成的方式仍

然很表面化,缺乏对状态理解的原则框架。这种差距在需要智能体推理延迟效应、时间依赖

性和因果机制演变的情境中尤为明显,即在因果性随着时间跨度展开的真实世界部署场景中

至关重要的能力。

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档