SSD 卸载对 LLM 混合专家权重有害于能源效率.pdfVIP

SSD 卸载对 LLM 混合专家权重有害于能源效率.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1

SSD卸载对LLM混合专家权重有害于能源

效率

KwanheeKyung,SungminYun,andJungHoAhn,SeniorMember,IEEE

摘要—大型语言模型(LLMs)应用专家混合(MoE)技专家混合(MoE)架构在DeepSeek-R1、Mixtral和

术扩展到万亿参数,但需要巨大的内存容量,这激发了一线研究Llama4等知名模型中已广泛用于扩展模型参数同时控

将专家权重从快速但较小的DRAM(HBM)卸载到更密集的制训练期间的计算成本。在MoE模型中,专家权重构成

闪存SSD。虽然SSD提供了具有成本效益的存储能力,但其

了绝大部分参数(例如,在DeepSeek-R1中占96.1%)。

每比特读取能耗远高于DRAM。本文定量分析了在LLM推理

的关键解码阶段将MoE专家权重卸载至SSD的能量影响。我然而,在推理过程中,每个标记只有少数一部分专家

本们的分析比较了DeepSeek-R1等模型使用SSD、CPU内存被激活(在DeepSeek-R1中为3.5%),导致稀疏访问模

译(DDR)和HBM存储方案的情况,结果显示,将MoE权重式。诸如MoE-prefetching[3]等技术通过将大量的专家

卸载到当前的SSD会导致每生成标记的能量消耗显著增加(例权重卸载到SSD或CPU内存来利用这一点,旨在通过

中如比HBM基准高出12倍),占据总推理能量预算的主导地将其与活跃专家的计算重叠来隐藏数据传输延迟。特别

1位。尽管预取等技术可以有效隐藏访问延迟,但无法减轻这种基是,虽然可以隐藏延迟,但在这些数据传输过程中消耗

v本能耗惩罚。我们进一步探索未来的技术扩展,发现MoE模型

8固有的稀疏性可能使SSD在能量上变得可行如果闪存读取能耗的能量并未减少,尤其是在访问能耗高的SSDs时更是

7

9显著改进,大约提高了一个数量级。如此。由于稀疏性在自回归解码阶段最为明显(其中一

6次生成一个标记),本研究重点关注分析此阶段的能量

0IndexTerms—大型语言模型,专家混合系统,推理系统,

8.能源效率,闪存,DRAM。影响。

0我们的分析表明,将MoE权重卸载到SSD显著增

5I.介绍

2加了能源使用。在DeepSeek-R1上进行推理时,如果专

:

v大型语言模型(LLMs)通过增加更多的预训练权家权重存储在SSD中,则每标记的能耗比保持在HBM

i

x重参数来显著提升推理准确性[1]。然而,这一趋势也中多大约4.9,比卸载到CPU内存多3.1(图1)。

r

a加大了对权重所需的内存容量以及每个代币生成时从在这种情况下,访问SSD上的权重所消耗的能量占总

内存加载的数据量的需求。因此,在实现高能效的同时每标记能量的惊人比例达80%,凸显了能源惩罚的严

保持高内存带宽已成为可持续、响应迅速的LLM推理重性。

服务的关键。典型的数据中心系统(如NVIDIADGX尽管目前存在这一缺点,但如果未来的Flash技术

H100)采用包括设备内存(如HBM)、CPU内存(如能够实现更好的能效(即使仍高于DRAM),MoE稀

DDR)和基于NANDFlash的存储(SSD)在内的多层疏性和SSD容量的结合可能会提供一种比小型密集模

次内存架构。尽管FlashSSD在每比特容量成本上低于型更高效地运行大型高精度模型的方法。因此,这项工

DR

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档