通过信息几何和量子度量重新思考大语言模型训练-计算机科学-大语言模型-模型训练.pdfVIP

下载本文档

0
0
约1.08万字
约 8页
2025-07-23 发布于中国
举报
版权申诉

通过信息几何和量子度量重新思考大语言模型训练-计算机科学-大语言模型-模型训练.pdf

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

通过信息几何和量子度量重新思考大语言模型训练

RiccardoDiSipio

Dayforce,HCM

riccardo.disipio@

2025年7月5日

摘要

本大型语言模型（LLMs）的优化在具有非欧几里得结构的高维参数空间中展开。信息几何利

译用费舍尔信息度量来构建这一景观，使通过自然梯度下降[1,2]实现更原则的学习成为可能。尽

管这通常不切实际[10]，这种几何视角澄清了诸如尖锐极小值、泛化和观察到的缩放定律[7]等

中现象。我们主张，考虑曲率的方法加深了我们对LLM训练的理解。最后，基于Fubini–Study

3度量和量子费舍尔信息[3,11]，我们推测出量子类比，暗示在量子增强系统中的高效优化。

81介绍

6.大型语言模型（LLMs）的优化既揭示了显著的成功，也提出了深刻的理论难题。随着这些模

0型规模的扩大，它们表现出更平滑的损失景观、更好的泛化能力和经验上可预测的表现。这些趋势

2被形式化为缩放定律，将计算量、数据和参数数量与损失[6,7]联系起来。然而，这些模式背后的

v原因仍然不完全明了。是什么决定了大规模下的损失景观的形状？为什么某些架构比其他架构更高

x效地收敛？我们的优化工具是否适合学习过程的真实几何形态？

在这篇论文中，我们探索了一个推测性的但有结构的假设：某些大型语言模型训练动力学的特

征——特别是那些涉及曲率、收敛性和泛化性的特征——可能通过量子几何的视角得到更清晰的理

解。虽然量子力学和深度学习在不同的领域运作，两者都描述了根据变分原理演化并表现出对局部

曲率敏感性的高维系统。量子系统在一个配备有富比尼—斯图迪度量的流形中演化，这是一种黎曼

几何学，定义了纯量子态之间的距离。这种度量诱导出量子费舍尔信息矩阵（QFI），它测量参数变

化的局部灵敏度，并编码了一个比其经典对应物[5,9]更锐利、更丰富的几何结构。

相比之下，传统的深度学习仅在显式近似时才使用诸如费舍尔信息矩阵这样的曲率感知方法，

如自然梯度下降[2]。但这些方法在大规模应用中很少实用：计算或求逆费雪信息矩阵在高维情况

下计算成本高昂且不稳定。然而，量子系统实现它们的内在优化几何结构。它们不近似曲率；而是

嵌入它。这种不对称性突显了一个关键差异：经典模型难以访问二阶结构，而量子系统本质上是在

一个高度弯曲的流形上进行优化。

从这个角度来看，训练一个大型语言模型并不不同于量子系统坍缩到一个测量结果。梯度下降

作为一个带有噪声的、迭代地向低损失状态投影的过程，受到随机数据暴露和局部曲率的影响。波

函数坍缩、能量最小化以及叠加原理的类比为描述大规模模型如何在参数空间中移动提供了一种新

的词汇——或许也为改进它们的训练提供了新工具。

本文其余部分详细阐述了这一论点。第2节介绍了优化、费雪几何和量子态空间的相关概念。

第3节将我们的工作置于经典和量子机器学习文献的更广阔背景中。第4节讨论了优化、缩放行为

和算法设计的影响，并概述了未来方向。我们通过反思比喻作为跨学科桥梁工具的价值，以及量子

几何可能教会我们训练更好模型的可能性来得出结论。

2理论背景

本节介绍了优化大语言模型的关键思想以及量子力学的基础几何结构。尽管这些领域在应用和

背景上有所不同，但它们共享了大量的数学框架。我们的目标不是形式化每一个元素，而是为后续

章节探讨的类比建立直觉。

2.1优化与几何在大语言模型中的应用

现代大型语言模型（LLMs）依赖于一阶优化

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

通过信息几何和量子度量重新思考大语言模型训练-计算机科学-大语言模型-模型训练.pdfVIP