驱动未来:面向大模型的智算网络.pdf

驱动未来:面向大模型的智算网络.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

驱动未来:面向大模型的智算网络

陈文智

浙江大学求是特聘教授,博士生导师,信息技术中心主任

2024/09/19

AI大模型与数据中心网络的发展历程

大模型的发展历程数据中心网络的发展

•参数规模从千亿到万亿:ChatGPT(1750亿)到GPT4(约1.8万亿)•标准数据中心网络:互联网驱动,规模超过万台物理服务器

•超大数据中心网络:云服务驱动,千万级租户数量,百万级设备数量

•从单模态到多模态:语言处理-到图像/视频/语音/文字跨模态交互

•大模型智算中心网络:AI大模型驱动,部署超过10万张卡的智算集群

AI大模型算力对网络的需求

多节点大带宽低长尾时延

175B大小的模型下,万卡训练可以显著

训练过程中的耗时,通信的占比最高可达50%[2]长尾时延造成网络带宽衰减[3]

缩短训练时间[1]

[1]JiangZ,LinH,ZhongY,etal.MegaScale:Scalinglargelanguagemodeltrainingtomorethan10,000GPUs(NSDI24)

[2]QianK,XiY,CaoJ,etal.Alibabahpn:Adatacenternetworkforlargelanguagemodeltraining(SIGCOMM24)

[3]LiZ,HuangJ,WangS,etal.AchievingLowLatencyforMultipathTransmissioninRDMABasedDataCenterNetwork(IEEETransactionsonCloudComputing2024)

AI大模型当前网络实现

•待训练数据传输

•Checkpoint数据传输

Scale-out网络Front-end网络(通算网络)前端网络

•GPU服务器之间通常运行PP(流水线并行)/DP(数

GPUCPU网GPUCPU网CPU网

网卡*N卡网卡*N卡卡据并行)策略时,同步中间结果/损失值/梯度等数据

Scale-Out

…•基于PCIe网卡,GPUdirectRDMA

GPUGPUCPU网络

Scale-Up互连

GPU服务器CPU服务器•GPU服务器内GPU卡之间主要运行MP/TP(模型

GPU服务器

并行/张量并行)时,同步计算结果

Scale-Up•

您可能关注的文档

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档