SpeLLM: 字符级多头解码-计算机科学-机器学习-大语言模型.pdf

SpeLLM: 字符级多头解码-计算机科学-机器学习-大语言模型.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SpeLLM:字符级多头解码

AmitBen-ArtzyRoySchwartz

TheHebrewUniversityofJerusalem

{amit.benartzy,roy.schwartz1}@mail.huji.ac.il

Abstract

缩放大规模语言模型的词汇表通常用于减少输入序列长度并减轻注意力机

本制的二次成本。然而,当前的大规模语言模型架构对这一过程构成了一个关

键瓶颈:输出投影层与词汇表大小呈线性关系,使得大幅度扩展变得不切实

译际。我们提出了一种名为SpellM的方法,该方法通过多个输出头预测字符

中级字符串来分离输入和输出词汇表。在SpeLLM中,个线性头同时预测单

个字符,使模型能够使用更小的独立线性头表示更大的输出空间。我们提出

1

v了一种自我蒸馏方法,将标准的大规模语言模型转换为SpeLLM。我们在四

3个预训练大规模语言模型上的实验表明,它们的SpeLLM变体在下游任务

2

3中实现了具有竞争力的表现,同时平均减少了%的运行时间。我们的方

6法提供了一个潜在途径来降低大规模语言模型的成本,同时增加对代表性

11

.不足的语言和领域的支持。

7

0

5

21介绍

:

v

i

x大型语言模型(LLM)倾向于使用字节对编码[1,2]来表示输入文本并生成下一个token。扩

r2

a大BPE词汇表可以缩短序列长度,从而降低运行时和内存消耗。进一步扩展这一点对于非

英语语言尤其有利,因为代表性不足会导致更长的token序列和更高的计算成本[5–7]。

然而,这也提高了生成每个标记的成本,因为词汇嵌入表既用于在最终变换器层中投影输出

标记,也用于计算生成下一个标记的softmax概率向量。

最近的研究通过从头开始训练字节级模型[8,9]来解决这种权衡问题,这允许扩展词汇表而

不会伴随相应的成本。另一条研究路线表明标准的大语言模型[10,11](使用BPE训练)能

够拼写。因此我们提出一个问题——我们能否调整现有的大语言模型以将其输出标记作为字

符序列而不是一个大型嵌入表中的元素进行生成?我们提出了SpeLLM,该模型用同时发生

的字符级预测替换了基于标记的选择。我们的方法在最终隐藏状态上使用了并行线性头,

每个头预测单个字符(参见Fig.1)。这种设计显著减少了输出层的大小,同时组合地扩展了

模型的表现能力。它还允许进一步扩展输入词汇表而不会增加输出时的成本。我们提出了一

种自我蒸馏方法,在这种方法中,一个基线(基于BPE的)大语言模型充当教师,而该模型

的SpeLLM版本是学生。

1我们发布代码于/schwartz-lab-NLP/SpeLLM

2确实,最近的LLM词汇量达到了10万以上[3,4]。

Preprint.Underreview.

Lar

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档