单一连接:一种参数高效的微调技术用于 Transformer-计算机科学-深度学习-大语言模型-参数高效的微调.pdfVIP

单一连接:一种参数高效的微调技术用于 Transformer-计算机科学-深度学习-大语言模型-参数高效的微调.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

单一连接:一种参数高效的

微调技术用于Transformer

12

HarshNileshPathakRandyPaffenroth

Abstract可以包含128个或更多的解码器块。这些

扩展的架构强调了在微调过程中重新审视

参数高效的微调(PEFT)是一种适应大型

如何使用跳跃连接的必要性。本文重点讨

语言模型(LLM)执行新任务的灵活且可

论“长跳跃连接”,这种连接将不同解码器

扩展的方法。最突出的PEFT方法之一,低

块的输出联系起来,有可能增强模型适应

秩适应(LoRA),主要集中在调整生成预训

新任务的能力,同时利用预训练的知识。

本练转换器(GPT-2)中单个解码块内的注意

译力权重矩阵上。相比之下,我们介绍了一种

中名为SoloConnection的新颖方法——它在1.介绍

1解码器块级别适应表示形式,而不是修改

v单独的权重矩阵。不仅SoloConnection在预训练语言模型(PLMs)如GPT-2(Radfordetal.,

3

5端到端自然语言生成基准测试中的表现优2019)、GPT-3、GPT-4、LLAMA-2(Touvronetal.,

3于LoRA,而且相对于LoRA减少了59%2023)和Transformer-XL(Daietal.,2019)通过利用

4

1的可训练参数量,并且与完全微调GPT-自监督目标(例如语言建模)改变了自然语言处理领

.

72(早期版本的大规模语言模型之一)相域。这些模型可以根据给定的序列预测下一个标记,

0

5比,其可训练参数量减少了超过99%。Solo从而生成连贯的文本。尽管它们取得了成功,但将

2Connection的另一个关键动机源自同伦理大型PLMs适应新领域的过程仍然需要大量资源,

:

v论,在此我们引入了一个可训练的线性变这限制了计算和内存受限的研究团队的可访问性。

i

x

r换,它逐渐插值于零向量和任务特定表示参数高效的微调(PEFT)通过使用少量的参数子

a

之间,从而实现平滑且稳定的随时间适应。集来适应PLMs,从而解决了这一挑战(Xuetal.,

虽然原始的12层GPT-2中的跳跃连接通2023)。像LoRA(Huetal.,2021)、BitFit(BenZaken

常局限于单独的解码器块,但随后的GPT-etal.,2022)和Adapters(Houlsbyetal.,2019a)这

样的技术已经表明,模型可以在不进行完全微调的

2变体扩展到48层,甚至更大的语言模型

1情况下保持强大的性能。这些方法在资源有限的环

E

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档