分离模型架构与推理计算-计算机科学-深度时序模型-大语言模型-机器学习.pdfVIP

分离模型架构与推理计算-计算机科学-深度时序模型-大语言模型-机器学习.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

分离模型架构与推理计算

诺尔·萨吉德

哈佛大学自然与人工智能研究所,美国剑桥;

德国图宾根马克斯普朗克生物控制论研究所

noorsajidt@

霍汉·梅德拉诺

杨丽莎集成计算神经科学中心,麻省理工学院,剑桥,马萨诸塞州,美国;

生物工程系,麻省理工学院,剑桥,马萨诸塞州,美国;

功能成像实验室,皇后广场神经病学研究所,伦敦大学学院,伦敦,英国

johmedr0@

中摘要Parretal.[2025]研究了自回归模型和深度时序模型在处理非马尔可夫序列建模方面的

1差异。在此基础上,我们强调需要将模型架构(即预测分布如何分解)与其在推理过程中调用

v

6的计算分离。我们展示了通过结构化迭代推理中的上下文访问,自回归模型可以模仿深层时间

7

7计算。使用一个训练了下一个标记预测的变换器,我们表明,在迭代推理期间诱导分层时间因

5子分解可以保持预测能力,同时减少计算量。这强调了构建和精炼预测的过程不一定受其底层

1

.模型架构的限制。

7

0

5关键词深层时序结构,变换器,语言模型,结构化上下文访问

2

:

v

i

x

r

a

介绍

变换器在长序列的信息整合方面表现出色,尽管它们缺乏明确的时间层次结构。Parretal.

[2025]显示,注意力机制使变换器能够通过选择性地关注嵌入连续潜在空间的过去输入来近似

非马尔可夫推理。为了理解这为什么重要,重新审视一个过程是什么意思变得有帮助,即该过

程是非马尔可夫性的。如果当前状态未能包含所有必要的信息以预测未来,即过去的上下文对

当前预测有所贡献,则系统为非马尔可夫性。这种非马尔可夫性通常源于更高维度的马尔可夫

1

图1:顺序和分层上下文访问在语言模型预测《福尔摩斯探案集》文本中的比较[Doyle,1992]。

A.示意图展示了不同上下文访问方案的差异:顺序路径(顶部)线性累加标记,而分层路径

(底部)以指数增加的时间间隔采样上下文(幂律阶数)。B.展示了每种上下文访问方案下

的惊异值绝对变化,C.是秩(即线性无关的行/列的数量),D.是预测效率,定义为秩与惊异

值变化幅度之比,作为上下文长度函数(–单位)在顺序处理(橙色)和分层处理(蓝色)

中。实线表示均值;阴影区域表示标准误差。

系统的部分可观测性[Parretal.,2025]。即使是局部神经回路,在隔离状态下也可能显得非

马尔可夫,尽管它们嵌入在整合和维持潜在上下文的分布式网络中~[Chaudhurietal.,2015,

Huthetal.,2016]。

为了理解系统如何管理这些依赖关系,区分以下两者是有用的:模型架构,它限制了

模型原则上可以表示的时间依赖性,以及推理时生成和细化预测的计算。深度时间模型通

过显式实例化潜在变量的层次结构并使用贝叶斯推理在该层次结构中传播信息来解决这个问

题[Fristonetal.,2018,2020,Parretal.,2021]。在这种层次结构中,在每个阶段将集成窗口

加倍的层堆叠在一起,可以得到一个呈指数级扩展的感受野,从而随着每一层的增加而乘以有

效记忆容量[Kiebeletal.,2008]。此类架构已被有效用于表征大脑中的功能层次结构[Friston

etal.,2018,Medranoetal.,2024],包括语言[Fristonetal.,2020]、视觉[Parretal.,2021]和

运动控制[Yuanetal.,2023]等领域。

这里,我们声称变压器可以在不修改架构的情况下模拟这些分层计算。我们展示了通过在

迭代推理过程中施加一种层次化的上下文访问模式——以指数级递增的时间间隔选择性地查

询过去的标记——一个未经修改的变压器可以模拟深层时间层次结构的有效多时间尺度计算。

2

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档