迈向小型语言模型服务的帕累托最优吞吐量.pdfVIP

迈向小型语言模型服务的帕累托最优吞吐量.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

迈向

小型语言模型服务的帕累托最优吞吐量

PolG.RecasensYueZhuChenWang

BarcelonaSupercomputingCenterIBMResearchIBMResearch

pol.garcia@bsc.esYue.Zhu@Chen.Wang1@

EunKyungLeeOlivierTardieuAlaaYoussef

IBMResearchIBMResearchIBMResearch

eunkyung.lee@tardieu@asyousse@

JordiTorresJosepLl.Berral

本BarcelonaSupercomputingCenterUniversitatPolitècnicade

译UniversitatPolitècnicadeCatalunya

中CatalunyaBarcelonaSupercomputingCenter

jordi.torres@bsc.esjosep.ll.berral@

3

v摘要上被认为归功于规模,但最近的研究表明,精心策划

3

5的数据集可能在训练高性能模型[5,8,9]中发挥重要

3大型语言模型(LLMs)彻底革新了许多不同的自然语

3言处理任务的必威体育精装版技术。尽管部署LLMs在计算和内作用。这种范式转变与新的服务优化策略相结合,对

0资源受限的用户产生了重大影响,现在他们能够提供

.存方面要求很高,但小型语言模型(SLMs)的兴起为

4最先进的小型模型。小型语言模型(SLMs)的兴起代

0资源受限的用户提供了新的机会,现在这些用户能够

4表了使AI更加普及的重要一步。

2使用具有前沿性能的小型模型。本文中,我们介绍了

:尽管SLMs的规模较小,自回归语言模型的增量

v一系列旨在从性能和能耗水平对SLM推理进行基准

i解码限制了其服务性能。由于自我注意力层中的数据

x测试的实验。我们的分析提供了一个新的服务视角,

r依赖性,我们每次迭代处理一个标记,导致矩阵-向量

a强调了SLMs的小内存占用量允许在单一加速器的资

运算。这与从内存加载模型权重的巨大成本结合在一

源容量内达到帕累托最优吞吐量。在这方面,我们展

起,在单批次推理[12]期间导致算术强度非常低。增

示了初步的研究成果,证明了模型复制如何有效地提

加算术强度的一种方法是定义为算术运算与访问字节

高服务于SLMs的资源利用率。

之间比率的批量请求,并计算相同权重传输

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档