- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
通过信息几何和量子度量重新思考大语言模型训练
RiccardoDiSipio
Dayforce,HCM
riccardo.disipio@
2025年7月5日
摘要
本大型语言模型(LLMs)的优化在具有非欧几里得结构的高维参数空间中展开。信息几何利
译用费舍尔信息度量来构建这一景观,使通过自然梯度下降[1,2]实现更原则的学习成为可能。尽
管这通常不切实际[10],这种几何视角澄清了诸如尖锐极小值、泛化和观察到的缩放定律[7]等
中现象。我们主张,考虑曲率的方法加深了我们对LLM训练的理解。最后,基于Fubini–Study
3度量和量子费舍尔信息[3,11],我们推测出量子类比,暗示在量子增强系统中的高效优化。
v
0
3
81介绍
5
1
6.大型语言模型(LLMs)的优化既揭示了显著的成功,也提出了深刻的理论难题。随着这些模
0型规模的扩大,它们表现出更平滑的损失景观、更好的泛化能力和经验上可预测的表现。这些趋势
5
2被形式化为缩放定律,将计算量、数据和参数数量与损失[6,7]联系起来。然而,这些模式背后的
:
v原因仍然不完全明了。是什么决定了大规模下的损失景观的形状?为什么某些架构比其他架构更高
i
x效地收敛?我们的优化工具是否适合学习过程的真实几何形态?
r
a
在这篇论文中,我们探索了一个推测性的但有结构的假设:某些大型语言模型训练动力学的特
征——特别是那些涉及曲率、收敛性和泛化性的特征——可能通过量子几何的视角得到更清晰的理
解。虽然量子力学和深度学习在不同的领域运作,两者都描述了根据变分原理演化并表现出对局部
曲率敏感性的高维系统。量子系统在一个配备有富比尼—斯图迪度量的流形中演化,这是一种黎曼
几何学,定义了纯量子态之间的距离。这种度量诱导出量子费舍尔信息矩阵(QFI),它测量参数变
化的局部灵敏度,并编码了一个比其经典对应物[5,9]更锐利、更丰富的几何结构。
相比之下,传统的深度学习仅在显式近似时才使用诸如费舍尔信息矩阵这样的曲率感知方法,
如自然梯度下降[2]。但这些方法在大规模应用中很少实用:计算或求逆费雪信息矩阵在高维情况
下计算成本高昂且不稳定。然而,量子系统实现它们的内在优化几何结构。它们不近似曲率;而是
嵌入它。这种不对称性突显了一个关键差异:经典模型难以访问二阶结构,而量子系统本质上是在
一个高度弯曲的流形上进行优化。
从这个角度来看,训练一个大型语言模型并不不同于量子系统坍缩到一个测量结果。梯度下降
作为一个带有噪声的、迭代地向低损失状态投影的过程,受到随机数据暴露和局部曲率的影响。波
1
函数坍缩、能量最小化以及叠加原理的类比为描述大规模模型如何在参数空间中移动提供了一种新
的词汇——或许也为改进它们的训练提供了新工具。
本文其余部分详细阐述了这一论点。第2节介绍了优化、费雪几何和量子态空间的相关概念。
第3节将我们的工作置于经典和量子机器学习文献的更广阔背景中。第4节讨论了优化、缩放行为
和算法设计的影响,并概述了未来方向。我们通过反思比喻作为跨学科桥梁工具的价值,以及量子
几何可能教会我们训练更好模型的可能性来得出结论。
2理论背景
本节介绍了优化大语言模型的关键思想以及量子力学的基础几何结构。尽管这些领域在应用和
背景上有所不同,但它们共享了大量的数学框架。我们的目标不是形式化每一个元素,而是为后续
章节探讨的类比建立直觉。
2.1优化与几何在大语言模型中的应用
现代大型语言模型(LLMs)依赖于一阶优化
您可能关注的文档
- 隐私保护在连接和自主车辆中的视觉到文本转换技术-计算机科学-强化学习-自动驾驶-视觉语言模型.pdf
- 非刚性运动校正通过粗到细扩散模型进行 MRI 重建-计算机科学-扩散模型-磁共振成像.pdf
- SoccerDiffusion-从游戏记录中学习端到端的人形机器人足球技术-计算机科学-人工智能-类人机器人.pdf
- 基于 Spot 的高性能强化学习-使用分布性度量优化模拟参数-计算机科学-强化学习-优化算法.pdf
- 医疗健康服务需求与政策研究方法.pptx
- 呼吸系统疾病诊断与治疗新技术应用研究.pptx
- 坐骨神经痛的针灸恢复.pptx
- 医学人文与患者沟通艺术.pptx
- 口腔医生临床操作培训课程.pptx
- 骨科护理与康复治疗.pptx
最近下载
- 护理综合技能(第2版)PPT课件 基本护理技术-注射技术.pptx
- 高中数学:习题2:幂函数.doc
- 电力线路迁改工程施工组织设计(完整常用版).doc VIP
- 2023年江西省初中学业水平考试英语真题及答案.doc VIP
- 初中数学:鲁教版(五四制)数学【全八册】知识点总结 .pdf VIP
- LY_T 3314-2022 皂荚培育技术规程.docx
- 钻孔简易水文地质观测规程 .doc VIP
- 2025H1全球短剧营销白皮书.pdf VIP
- 阳光财产保险股份有限公司雇主责任保险条款2011版.pdf VIP
- 神经重症患者感染诊治_美国临床神经医学手册(2017-2018)与中国专家共识(2017)的对比与解读.pdf VIP
文档评论(0)