作为语言模型的水库计算-计算机科学-大语言模型-资源限制.pdfVIP

作为语言模型的水库计算-计算机科学-大语言模型-资源限制.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

作为语言模型的水库计算

FelixKösterandAtsushiUchida

DepartmentofInformationandComputerSciences,SaitamaUniversity,

255Shimo-Okubo,Sakura-ku,SaitamaCity,Saitama,338-8570,Japan

(10Dated:2025年7月22日)

大型语言模型(LLM)因其处理大量数据并生成类似人类水平文本的出色表现而主导了科学和媒体

领域。然而,它们巨大的能源需求和缓慢的处理速度仍然是进一步提高质量并使所有人都能访问这些

模型的瓶颈。为了解决这个瓶颈,我们将研究池计算在自然文本处理中的表现,这可以实现快速且节能

的硬件实现。研究池计算作为语言模型的应用仍然很少见。在这篇论文中,我们比较了三种不同的字

符级语言建模方法,两种不同水库计算的方法,其中只有输出层可训练,以及众所周知的基于变压器

的架构,后者完全学习了一个基于注意力的序列表示。通过等量变化所有模型的可训练参数数量,我

们探讨了这两种范式的性能、计算成本和预测准确性。使用一个一致的流水线对这三种方法进行评估,

我们展示了变换器在预测质量上表现出色,而池计算机则保持高效,在减少训练和推理速度方面表现

突出。此外,我们研究了两种类型的池计算:一种是带有静态线性读出的传统水库,另一种是通过注

本意力机制动态调整其输出权重的增强注意力的水库。我们的发现强调了这些范式如何扩展,并提供了

平衡资源限制与性能的指导方针。

中I.介绍列建模中的应用[19]。虽然先前的工作已经探索了将

1水库计算用于文本分类任务[20]甚至展示了面向硬件

v

9现代的序列建模任务,如语言建模和机器翻译,主的语言学习实现[21],但作为语言模型明确使用水库计

7要由基于注意力的架构主导——最突出的是变压器家算——即,用于生成式下一词预测——仍然鲜为人知。

7

5族[1–6]——它们通过自注意力层和前馈网络学习上下水库计算的一个优势在于其简单性,因为只需要训练

1

.文表示来捕捉长距离依赖关系。然而,变压器的训练一个小的读出层,而变压器则需要端到端地训练嵌入、

7

0和推理会产生显著的计算和能源成本,通常需要专用多头自注意力层和前馈网络。然而,通过扩展至数百

5硬件,并且在更严格的资源预算下限制了可访问性。万(或数十亿)参数,变压器可以在语言任务中实现最

2

:水库计算(RC)提供了另一种选择。在RC中,一先进的性能[4]。

v

i个大型、固定、循环的“水库”将输入投射到高维状

x

r态空间中,并且只有轻量级的读出层被训练。这种设

a

计极大地减少了训练时间和能源消耗,并且可以在软

件或模拟硬件基底上高效实现。最近的工作通过神经

编程技术扩展了经典RC以塑造水库动力学,并在读

出阶段引入注意力机制来自适应地加权水库状态[7]。在这项研究中,我们提出了一种统一的框架,将

RC已经被证明在时间序列预测中表现优异[8–10],利两种方法应用于字符级序列预测,在一个受近期简约

用提到的大型、固定随机水库捕捉非线性动态,同时型变压器实现(如Karpathy的NanoGPT[22])启发

最小化训练开销[11–14]。水库计算的魅力在于可以通的小型莎士比亚文本语料库上展示紧凑模型如何在字

过广泛的物理基底实现多样化[15],包括量子系统作为符级语言建模任务中仍能取得强大的性能。我们在经

潜在的RC候

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档