演示-数据中心中 AI/ML 工作负载的端到端保障框架-计算机科学-人工智能-机器学习-根本原因分析.pdfVIP

下载本文档

0
0
约4.96千字
约 3页
2025-07-26 发布于中国
举报
版权申诉

演示-数据中心中 AI/ML 工作负载的端到端保障框架-计算机科学-人工智能-机器学习-根本原因分析.pdf

1、本文档共3页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

演示：数据中心中AI/ML工作负载的端到端

保障框架

JitGupta,TarunBanka,RahulGupta,MithunDharmaraj,JasleenKaur

[,,,,]@

JuniperNetworks,Sunnyvale,CA94089,USA

摘要—现代机器学习工作负载，如大型语言模型训练和微调

任务，高度分布式并跨越数百个系统，每个系统具有多个GPU。

这些工作负载的作业完成时间是应用、计算、网络和存储性能的

结果。在出现故障或性能下降的情况下，理解根本原因及可能的

本补救措施对于端到端保证至关重要。此演示展示了使用跨层遥

测和日志（例如，应用程序遥测、集体通信日志、GPU健康指

译标、网络流数据、NICROCEv2遥测）的基于SaaS的可观测

中性和自动故障排除方法，用于解决AI/ML工作负载性能问题。

1演示了不同的用例以实现端到端保证，如跨层依赖图、跨层服务

v级别期望、自动化根本原因分析、GPU到GPU应用程序路径

8跟踪。图1.端到端框架

1IndexTerms—保证，人工智能/机器学习，系统性红斑狼存于AI/ML集群中的工作负载实现端到端保障的有效

3疮，流分析，根本原因分析，端到端，网络，图形处理单元性。据我们所知，这是数据中心中机器学习工作负载的

7.I.介绍第一个端到端保障框架。

5II.端到端架构

2分布式机器学习应用由于模型和数据集规模较大，

:需要多个GPU[1]。这些应用程序在企业数据中心的多图1展示了端到端的架构，其中每个工作负载都映

i系统中运行，并通过低延迟、高带宽网络（如Infiniband射到了主机和相应的GPU。此外，这些进一步映射到

r或RoCEv2）进行通信[2]。通信由集体通信库管理，例了底层网络拓扑（包括网卡和交换机）。这种映射是在

如Nvidia的NCCL[3]。此外，多个工作负载的同时存运行时通过聚合来自多个来源的不同类型遥测数据（如

在需要确保各个应用程序的安全运行。日志、时间序列、从应用层到网络层的拓扑数据）来确

这些工作负载的保障包括从应用层到底层计算和定的。使用来自GPU、网卡、交换机等多个来源的遥

网络层的跨层次可观察性。在保障方面的一些关键能力测和日志数据来构建端到端的应用流量路径。自定义

是1.生成跨层次依赖图，以确定这些工作负载对底层NCCL的日志功能与交换机提供的流遥测相结合，有助

计算和网络资源的实际时间依赖关系。2.持续的服务级于确定端到端路径。此外，这还有助于将网络遥测映射

别期望（SLE）监控，用于确定每一层在短期和长期内到各个应用，并提供不同AI/ML工作负载下集体通信

的健康状况3.异常检测和根本原因分析，实现自动化操作行为的可见性。

故障排除和修复，有助于识别可能导致应用工作负载性来自每一层的遥测/指标可以分类为：

能下降的潜在瓶颈。4.应用程序感知的GPU到GPU应用指标–TorchMetrics[4]提供应用指标（例如，

网络路径跟踪，以确定两个通信GPU之间的工作负载迭代率、模型准确率/损失等）。此外，我们通过我

流量端到端（E2E）路径，从而精确定位任何导致应用们检测到的NCCL日志功能推导出操作率（例如，

性能下降的网络瓶颈。演示将展示上述能力对多个可共AllReduce的速率）。

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

演示-数据中心中 AI/ML 工作负载的端到端保障框架-计算机科学-人工智能-机器学习-根本原因分析.pdfVIP