一种预测稀疏性的方法用于大型问题通过激活模式聚类的语言模型-计算机科学-机器学习-大语言模型-激活稀疏性-优化.pdf

一种预测稀疏性的方法用于大型问题通过激活模式聚类的语言模型-计算机科学-机器学习-大语言模型-激活稀疏性-优化.pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

一种预测稀疏性的方法用于大型问题

通过激活模式聚类的语言模型

NobelDhar,BobinDeng,Md

RomyullIslam,XinyueZhang,Kazi

FahimAhmadNasif,andKunSuo()

KennesawStateUniversity,KennesawGA30144,USA

ndhar@,bdeng2@,

mislam22@,xzhang48@,

本knasif@,ksuo@

中摘要大型语言模型(LLMs)表现出显著的激活稀疏性,其中对于给定输

1入只有部分神经元是活跃的。尽管这种稀疏性提供了减少计算成本的机会,

v但有效地利用它需要以可扩展的方式预测激活模式。然而,由于现代LLMs

9中神经元的数量庞大,在神经元级别进行直接预测在计算上非常昂贵。为

7

1了实现高效地预测和利用激活稀疏性,我们提出了一种基于聚类的激活模

4式压缩框架。我们不是将每个神经元独立处理,而是将相似的激活模式分

1

.组到一组代表性的簇中。我们的方法实现了高达79.34%的聚类精度,优于

7标准的二进制聚类方法,同时保持困惑度(PPL)评分的最小退化。通过

0

5足够多的簇数,我们的方法可以达到低至12.49的PPL评分,证明了其在

2减少计算开销的同时保持模型质量的有效性。通过预测簇分配而不是单个

:

v神经元状态,未来的模型可以从预计算的质心中高效地推断激活模式。我

i

x们详细介绍了聚类算法,分析了它捕捉有意义的激活结构的能力,并展示

r

a了提高稀疏计算效率的潜力。这种基于聚类的表述为未来关于激活模式预

测的工作奠定了基础,为大规模语言模型中的高效推理铺平了道路。

Keywords:大语言模型·优化·激活稀疏性·聚类

1介绍

基于变压器的AI模型,如大型语言模型(LLMs)、大型视觉模型(LVMs)

和大型多模态模型(LMMs),快速发展的智能能力已迅速扩展到各种实际

应用中。这些大型模型通常包含数百亿甚至数万亿个参数——例如,GPT-

4.5[2]大约有12.8万亿个参数,并且必须在高性能计算(HPC)系统或大型

2N.Dharetal.

数据中心上运行。集中处理系统存在显著的限制。首先,AI处理请求完全

依赖于稳定的网络连接,需要最终用户将其请求传输到远程HPC系统并等

待结果。其次,随着活跃用户的数量增加和AI模型变得更为复杂,集中式

数据中心必须采用越来越复杂的方案来维持相同的服务质量(QoS)水平。

然而,这将要求我们进一步升级复杂的冷却系统,该系统消耗了大部分供

应电力,甚至比计算任务本身还要多。第三,远程服务器处理引入更高的延

迟,并因传输过程中的潜在安全风险而引发对数据隐私的担忧。因此,我们

将动力驱动一部分AI任务保留在边缘设备上,而不是提交给集中式数据中

心。在多个较小设备上的这种边缘AI处理实质上增加了我们实际应

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档