2024-4-1国盛通信|光通信重大更新!- 被误解的GB200利好.docxVIP

2024-4-1国盛通信|光通信重大更新!- 被误解的GB200利好.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2024-4-1国盛通信|光通信重大更新!-被误解的GB200利好

会议实录

各位朋友,大家晚上好,我是国盛通信的黄菡。

今天晚上的会议主要是为了澄清一些之前存在的分歧和误解,特别是关于“铜进光退”现象和交换机光模块配比下降的问题,这些因素曾导致光模块市场的回调。我们已经对这些担忧进行了详细的测算和评估。事实上,无论是从铜缆的使用还是光模块的配比来看,自GB200发布以来,市场都出现了一些变化。今晚我们会讨论如何看待这些变化,并预测它们最终的影响。

首先,我要分享的结论是,我们认为既没有铜缆使用量的大幅提升,也没有光模块配比的下降;实际上,配比应该是在上升。从hpop系列到black2系列,从GH200到GB200,光模块的边际增量非常明显,排放最多。以前大家可能认为潼南或其他领域的增量更大,但现在看来,它们都不及光模块的增量。这就是我们得出的最终结论。

由于今晚不能使用PPT,我们将在面对面的会议中提供更为详细的数据和结果。那时,我们还可以就这些结构和推导的结果与大家进行深入的交流。

现在让我们更新几个要点。首先是GB200的更新,因为目前的核心关注点就是这个支持NVLink72链路的机柜。大家可以在英伟达的官网上找到一些这个机柜的文档和白皮书。在这个文档中,所有的配置都是针对单个机柜的。这个机柜内有9台交换机,每台交换机有18个NVswitch芯片,每个交换机内有两个。而上面没有第二层交换机了,所以柜内全部使用铜缆连接IB。之前的理解是因为看到全铜的柜子,而光模块只占很小一部分,导致大家认为配比可能只有1比2,甚至不到1比2,这就是以前的分析逻辑。但是,如果基于GB200的销量,真如大家预期的那么乐观,那么光模块的需求一定会强于以前的产品。所以,这其中的误解可能是因为大家没有用正确的方式做比较。

实际上,大家在比较GB200和GH200时,没有使用相同的维度。GB200的配置参数是针对单个机柜的,而GH200的对比是基于一个集群的配置。虽然单个柜子拥有1.44亿个flops,原有集群大约有256个GPU,算力大约在一个亿以上,看上去算力相仿,但是节点数量有很大差异。这样的比较就像是对比一个精装修的窗台上墙砖的数量,与一个整套房子的墙砖数量,显然是不合理的。如果节点数减少,那么交换机和光模块的使用量自然会减少。因此,如果要合理比较,应该是拿一个新房子的使用材料,与一个老房子的使用材料进行对比。

首先,我们应该如何比较GB200和GH200?我们应该将所有机柜配置的集群相互比较,这是考虑光模块使用情况的合理方式。原因在于光模块与GPU的数量并不是线性关系。人们常常误以为这种比例是1比3,但却忽略了它可能高达1比9。这种关系实际上是累加的:GPU或交换节点越多,对非阻塞全互联网络的要求就越高,光模块的增长呈指数性,但节点很少时,光模块的需求甚至为零。因此,我们应该比较相同的集群,而不是将单一机柜与GH200的整个集群对比。这是关于误解的一个核心因素。

接下来,我们来探讨为什么英伟达要推出GB200和GH200。他们实际上是将GPU从机柜中剥离出来,构建了一种无阻塞全互联的集群。这使得所有GPU仿佛合并成了一个庞大的GPU,无论是之前的256个GPU大集群,还是现在整个机柜的576个B200大集群。这就好比一张巨大的DPU,这样的计算性能表现非常高。所谓的无阻塞全互联,定义上是指集群中每个GPU都能达到每个链接的理论最高带宽和传输速度,即每个GPU的传输速度都不受限。

那么,单个机柜上是如何实现无阻塞全互联的呢?GB200包含2个B200,每个B200带有18个第五代NVLink的链接。这些链接的双向带宽从每秒50GB升级到了100GB。72个B200,总共1296个链接。机柜内包含9台NVLink第四代的交换机,每个交换机有72个NVLink端口。集群中的交换机与GPU的链接可以完全匹配,因此在单机柜内,这种无阻塞全互联的效果可以实现,就好像72个GPU是一个整体。

然而,如果除了单柜外还要购入更多机柜来构建集群,问题就出现了。例如,老黄在他的演示中使用的是576个GPU,即8个机柜的配置。在这种情况下,需要高性能光模块来实现八个机柜的无阻塞全互联。因此,我们应该对比GB200的576个GPU集群与GH200的256个GPU集群,而不是单独的机柜与GH200的16个机柜。前者节点少,光模块需求自然少,这样比较不公平,也没有意义。

问题在于如何实现GB200的机柜互联。有人提出使用InfiniBand(IB)或以太网交换机。但为什么之前GH200的机柜互联不采用IB而是使用A-Link?举个例子,我们可以将数据包比作汽车,网络比作马路。如果只有少数通道连接机柜,即使内部流量顺畅,互联之间的狭窄点也会成为集群通信的瓶颈。因此,为了

文档评论(0)

186****3458 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档