人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能.docxVIP

人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第1页/共9页

计算机

DeepSeek的稀疏注意力机制给AI产业

释放更大的发展潜能——人工智能专题

证券研究报告

证券研究报告-行业分析报告强于大市(维持)

计算机相对沪深300指数表现

计算机沪深300

52%44%35%27%19%10% 2%-6%

2024.102025.022025.062025.10

资料来源:聚源

相关报告

《人工智能专题:后R1时代,DeepSeek发展的三大阶段》2025-10-14

《计算机行业月报:国产算力芯片迎来高光时刻,超节点和集群层面双双赶超》2025-09-19

《人工智能专题:三大要素齐发力,AI应用步入全面加速期》2025-03-07

发布日期:2025年10月16日

投资要点:

l人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制,从而给长文本处理带来了可能性。

l由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过ScalingLaw提升大模型长文本处理能力和模型性能,AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作。

lNSA:2025年2月,DeepSeek梁文锋参与撰写的论文《NativeSparseAttention:Hardware-AlignedandNativelyTrainable

SparseAttention》发布,提出了原生稀疏注意力(NSA),通过算法和硬件的协同优化,把长文本处理速度提升了11倍,并实现了与传统的全注意力模型相当或更优的性能。

lDSA:2025年9月DeepSeek发布了V3.2-Exp,它基于V3.1-Terminus构建,引入了新的注意力机制DSA,在保持模型性能的稳定的同时,在训练推理效率方面有了较大的提升,带来了模型较大幅度的降价。由于不需要重新训练模型,而是进行原有模型的升级,可以更低成本地进行稀疏注意力的探索与实验。

l稀疏注意力的引入将注意力计算复杂度从O(L2)(L为序列长度)降至亚平方级(如O(LlogL)、(O(L*k)),从而突破内存与算力瓶颈。此前,稀疏注意力工作主要集中在推理阶段,而业界预训练阶段多采用稠密注意力机制,而DeepSeek的NSA和DSA在训练阶段引入了稀疏注意力,给大模型带来的计算效率的提升和模型上下文的拓展,将给后训练释放更大的发展潜能,成为推动模型能力不断突破的重要支撑。

风险提示:国际形势的不确定性。

计算机

第2页/共9页

内容目录

1.注意力机制与大模型发展的关系 3

2.DeepSeek在注意力机制方面的技术改进 3

3.DSA和NSA给AI产业释放了更大的发展潜能 7

4.风险提示 7

图表目录

图1:DeepSeek-V2中MLA对于降低KVCache和训练成本的作用 4

图2:MLA与其他注意力机制的结构差异 4

图3:NSA模型效果及效率对比 5

图4:DeepSeek模型API调用价格(元/百万Tokens) 5

图5:TileLang简介 6

图6:DeepSeek-V3.2-Exp中DSA的实现原理 6

图7:模型Scaling的新范式 7

图8:DeepSeek-R1-Zero在训练中AIME精度提升情况 7

图9:DeepSeek-R1-Zero在训练中的平均响应时长 7

表1:DeepSeek的主要模型发布情况 3

计算机

第3页/共9页

1.注意力机制与大模型发展的关系

人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制(AttentionMechanism),从而给长文本处理带来了

可能性。2017年,谷歌提出了发布论文《AttentionIsAllYouNeed》提出了当前大语言模型的主流架构Transformer,Attention成为了大模型的核心模块,

您可能关注的文档

文档评论(0)

情报猿 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档