智算基础设施发展研究报告(2024年).docx

智算基础设施发展研究报告(2024年).docx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

智算基础设施发展研究报告

(2024年)

中国信息通信研究院产业与规划研究所2024年9月

前言

当前人工智能技术及生态迭代加快,对智能算力提出更强更大规模的需求。作为关键环节与核心底座,以智算中心为代表的智能算力基础设施,在AI落地破局与赋能新型工业化进程中,被赋予更重要的定位。智算基建成为支撑人工智能技术及产业发展的重要基石。本报告重点聚焦智算基础设施的供需布局、能力要求、赋能模式,梳理业界必威体育精装版动态与发展趋势。

供需布局方面,聚焦区域智算基建布局场景,通过分析基础大模型与行业模型在训练端与推理端对智算的需求,明确城市布局智算中心应综合考虑区域内AI训练与推理需求,提出应做好智能算力资源的统筹,将行业大模型落地赋能,作为地方智算基建的主攻方向,避免地方政府“一窝蜂”导致大量算力的浪费。

能力要求方面,着力回答“智算基础设施需要提供什么能力”这个关键问题,提出推进智算集群构建应重视算力有效性、集群稳定性、绿色低碳性、服务易用性四个核心能力,引导行业层面强化标准规范体系建设,推出智算集群引导性规范。

赋能模式方面,关注我国智算基建商业运营赋能机制,重点梳理总结国内典型智算基础设施的商业运作模式与典型案例,为国内智算基建推进科学运营赋能提供重要参考。

当然,报告仍有诸多不足,恳请各界批评指正。

目录

一、智算基础设施发展概述 1

二、智算基础设施的供需布局 4

(一)基础大模型训练推动大规模智算集群强增长 4

(二)模型推理应用将构成智算基建第二条增长曲线 6

(三)区域智算基建布局综合考虑训练与推理需求 8

(四)跨区域调度协同强力支撑智算基建供需对接 10

三、智算基础设施的能力要求 12

(一)算力有效性是核心 12

(二)集群稳定性是保障 14

(三)绿色低碳性是前提 16

(四)服务易用性是亮点 18

四、智算基础设施的赋能模式 19

(一)产研合作行业大模型 20

(二)龙头引领联合创新 20

(三)央国企示范应用发展 21

(四)超智融合算力生态 22

五、发展建议 22

(一)投资布局要分类引导,分级建设 23

(二)服务能力要标准先行,强化引导 23

(三)要素资源要联合创新,直击场景 24

智算基础设施发展研究报告(2024年)

1

一、智算基础设施发展概述

智算,即人工智能算力,是用于支撑加速人工智能算法模型训练与推理的算力,其部署层级分为芯片级、单服务器节点级、多服务器集群级。在芯片级,依托GPU、NPU、FPGA和ASIC等加速芯片用于AI模型训练与推理加速,当前GPU在国内市场中占据主导地位。华为、天数、海光、寒武纪等本土企业在该领域积极研发布局,如华为已经推出了昇腾系列全栈自主、性能优良的产品,能够实现对智能计算的良好支撑。在单服务器节点级,以“CPU+XPU”异构计算范式为主的Al异构服务器,加强CPU与XPU协同,主流服务器产品相对更丰富,浪潮、戴尔等传统服务器厂家基于英特尔CPU+英伟达GPU的组合推出了AI服务器产品,华为及生态伙伴基于其自主研发的AI芯片推出了国产系列AI服务器产品。在多服务器集群级,Al应用中数据、模型的大型化趋势对智能算力的扩展性提出高要求,资源需要以集群模式部署以提供并行计算能力,高性能无损网络+高性能存储为单服务器节点级和多服务器集群级的算力突破提供了重要支撑。

来源:中国信息通信研究院图1人工智能算力的部署层级

智算基础设施发展研究报告(2024年)

2

智算基础设施,即人工智能算力基础设施,是基于人工智能专用算力芯片及加速芯片等组成异构计算架构,以智能计算设施为核心设施,以智能算力集群为核心载体,面向人工智能应用场景,提供所需算力服务、数据服务和算法服务的公共算力基础设施。智算基础设施需要统筹协同计算、网络、存储等核心技术。大模型参数量和训练数据复杂性快速增长,对AI算力平台的建设提出了新的要求,即需要从数据中心规模化算力部署的角度,统筹考虑大模型分布式训练对于计算、网络和存储的需求特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡可扩展集群系统,以满足AI大模型的训练需求。首先,大模型的训练推理需要大量的加速卡并行计算,并且需要使用分布式训练和推理来提高效率。同时,大模型对存储的需求也很高,因为模型需要存储大量的参数和梯度信息。此外,大模型对网络的需求也很高,因为需要快速传输数据和同步梯度信息。整体来看,智算基础设施的部署涉及计算、

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档