- 1、本文档共3页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
演示:数据中心中AI/ML工作负载的端到端
保障框架
JitGupta,TarunBanka,RahulGupta,MithunDharmaraj,JasleenKaur
[,,,,]@
JuniperNetworks,Sunnyvale,CA94089,USA
摘要—现代机器学习工作负载,如大型语言模型训练和微调
任务,高度分布式并跨越数百个系统,每个系统具有多个GPU。
这些工作负载的作业完成时间是应用、计算、网络和存储性能的
结果。在出现故障或性能下降的情况下,理解根本原因及可能的
本补救措施对于端到端保证至关重要。此演示展示了使用跨层遥
测和日志(例如,应用程序遥测、集体通信日志、GPU健康指
译标、网络流数据、NICROCEv2遥测)的基于SaaS的可观测
中性和自动故障排除方法,用于解决AI/ML工作负载性能问题。
1演示了不同的用例以实现端到端保证,如跨层依赖图、跨层服务
v级别期望、自动化根本原因分析、GPU到GPU应用程序路径
8跟踪。图1.端到端框架
5
1IndexTerms—保证,人工智能/机器学习,系统性红斑狼存于AI/ML集群中的工作负载实现端到端保障的有效
3疮,流分析,根本原因分析,端到端,网络,图形处理单元性。据我们所知,这是数据中心中机器学习工作负载的
0
7.I.介绍第一个端到端保障框架。
0
5II.端到端架构
2分布式机器学习应用由于模型和数据集规模较大,
:需要多个GPU[1]。这些应用程序在企业数据中心的多图1展示了端到端的架构,其中每个工作负载都映
v
i系统中运行,并通过低延迟、高带宽网络(如Infiniband射到了主机和相应的GPU。此外,这些进一步映射到
x
r或RoCEv2)进行通信[2]。通信由集体通信库管理,例了底层网络拓扑(包括网卡和交换机)。这种映射是在
a
如Nvidia的NCCL[3]。此外,多个工作负载的同时存运行时通过聚合来自多个来源的不同类型遥测数据(如
在需要确保各个应用程序的安全运行。日志、时间序列、从应用层到网络层的拓扑数据)来确
这些工作负载的保障包括从应用层到底层计算和定的。使用来自GPU、网卡、交换机等多个来源的遥
网络层的跨层次可观察性。在保障方面的一些关键能力测和日志数据来构建端到端的应用流量路径。自定义
是1.生成跨层次依赖图,以确定这些工作负载对底层NCCL的日志功能与交换机提供的流遥测相结合,有助
计算和网络资源的实际时间依赖关系。2.持续的服务级于确定端到端路径。此外,这还有助于将网络遥测映射
别期望(SLE)监控,用于确定每一层在短期和长期内到各个应用,并提供不同AI/ML工作负载下集体通信
的健康状况3.异常检测和根本原因分析,实现自动化操作行为的可见性。
故障排除和修复,有助于识别可能导致应用工作负载性来自每一层的遥测/指标可以分类为:
能下降的潜在瓶颈。4.应用程序感知的GPU到GPU应用指标–TorchMetrics[4]提供应用指标(例如,
网络路径跟踪,以确定两个通信GPU之间的工作负载迭代率、模型准确率/损失等)。此外,我们通过我
流量端到端(E2E)路径,从而精确定位任何导致应用们检测到的NCCL日志功能推导出操作率(例如,
性能下降的网络瓶颈。演示将展示上述能力对多个可共AllReduce的速率)。
您可能关注的文档
- ASCRIBE-XR-用于科学图像可视化的虚拟现实-计算机科学-科学可视化-虚拟现实-可解释人工智能.pdf
- 基于图像的机器人绘画快速对数正态运动-计算机科学-图像生成-视觉模型-机器人.pdf
- MathOptAI.jl-将训练好的机器学习预测器嵌入到 JuMP 模型中-计算机科学-机器学习-优化-Julia.pdf
- 关于重音强度与发音特征之间的关系-计算机科学-音频处理-发音特征-发音逆向工程技术.pdf
- 全息投影与网络攻击面-数字安全的物理类比-计算机科学-全息原理-数字安全-网络攻击.pdf
- 一种用于椭圆问题中计算特征值的 PINNs 方法-计算机科学-深度学习-算法.pdf
- 2025年金融机构反洗钱合规评估与案例研究实践案例集深度解析.docx
- 干细胞治疗神经系统疾病临床应用临床研究数据共享平台建设创新进展报告.docx
- 新税制背景下医疗企业2025年税收筹划与合规性评估报告.docx
- 工业互联网安全防护体系在智能家居领域的应用与发展报告.docx
- 工业互联网平台网络功能虚拟化在智能制造2025年应用策略报告.docx
- 珠宝电商跨境物流专线在跨境电商生态圈中的协同发展研究.docx
- 2025年农业职业经理人培养与经营主体发展策略研究.docx
- 工业互联网安全防护体系在网络安全威胁情报中的应用实践.docx
- 工业互联网安全防护体系在智能交通领域的应用与实践报告.docx
- 线下演出市场复苏,2025年演出市场智能票务系统市场竞争力分析报告.docx
- 智能家居生态构建路径与2025年用户接受度实证研究报告.docx
- 元宇宙虚拟会展技术支撑体系2025:打造沉浸式互动新体验.docx
- 2025年互联网数据中心数据中心设备选型与配置评估报告.docx
- 工业互联网安全防护体系在智能生产环境中的风险管理报告.docx
文档评论(0)