- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
单一连接:一种参数高效的
微调技术用于Transformer
12
HarshNileshPathakRandyPaffenroth
Abstract可以包含128个或更多的解码器块。这些
扩展的架构强调了在微调过程中重新审视
参数高效的微调(PEFT)是一种适应大型
如何使用跳跃连接的必要性。本文重点讨
语言模型(LLM)执行新任务的灵活且可
论“长跳跃连接”,这种连接将不同解码器
扩展的方法。最突出的PEFT方法之一,低
块的输出联系起来,有可能增强模型适应
秩适应(LoRA),主要集中在调整生成预训
新任务的能力,同时利用预训练的知识。
本练转换器(GPT-2)中单个解码块内的注意
译力权重矩阵上。相比之下,我们介绍了一种
中名为SoloConnection的新颖方法——它在1.介绍
1解码器块级别适应表示形式,而不是修改
v单独的权重矩阵。不仅SoloConnection在预训练语言模型(PLMs)如GPT-2(Radfordetal.,
3
5端到端自然语言生成基准测试中的表现优2019)、GPT-3、GPT-4、LLAMA-2(Touvronetal.,
3于LoRA,而且相对于LoRA减少了59%2023)和Transformer-XL(Daietal.,2019)通过利用
4
1的可训练参数量,并且与完全微调GPT-自监督目标(例如语言建模)改变了自然语言处理领
.
72(早期版本的大规模语言模型之一)相域。这些模型可以根据给定的序列预测下一个标记,
0
5比,其可训练参数量减少了超过99%。Solo从而生成连贯的文本。尽管它们取得了成功,但将
2Connection的另一个关键动机源自同伦理大型PLMs适应新领域的过程仍然需要大量资源,
:
v论,在此我们引入了一个可训练的线性变这限制了计算和内存受限的研究团队的可访问性。
i
x
r换,它逐渐插值于零向量和任务特定表示参数高效的微调(PEFT)通过使用少量的参数子
a
之间,从而实现平滑且稳定的随时间适应。集来适应PLMs,从而解决了这一挑战(Xuetal.,
虽然原始的12层GPT-2中的跳跃连接通2023)。像LoRA(Huetal.,2021)、BitFit(BenZaken
常局限于单独的解码器块,但随后的GPT-etal.,2022)和Adapters(Houlsbyetal.,2019a)这
样的技术已经表明,模型可以在不进行完全微调的
2变体扩展到48层,甚至更大的语言模型
1情况下保持强大的性能。这些方法在资源有限的环
E
您可能关注的文档
- 双层模型预测控制在节能集成产品定价与生产调度中的应用-计算机科学-机器学习-模型预测控制-双层优化-制造调度.pdf
- 可解释的梯度下降法用于卡尔曼增益-计算机科学-机器学习-线性时不变系统-算法.pdf
- 远程协助或远程驾驶: 操作设计领域对 ADS 支持系统选择的影响-计算机科学-人工智能-自动驾驶系统-远程操作.pdf
- 偏好数据集剪枝的影响函数-计算机科学-大语言模型-强化学习-参数微调.pdf
- 环境监测物联网在环境保护执法中的应用与数据管理报告.docx
- 2025年社交电商裂变营销策略揭秘:打造高效用户增长闭环.docx
- 2025年生态循环农业技术模式创新与经济效益协同效应分析.docx
- 2025年银发市场养老服务市场细分领域创新案例研究报告.docx
- 工业互联网平台边缘计算硬件架构在2025年智慧城市中的优化应用报告.docx
- 2025年葡萄酒产区特色与品牌国际化品牌国际化品牌文化传承与发展研究报告.docx
- 农村一二三产业融合发展的绿色农业技术集成与应用报告.docx
- 2025年生态循环农业技术模式在节能减排中的应用报告.docx
- 2025年K2教育AI个性化学习系统对学生学习心理影响效果报告.docx
- 2025年产业扶贫项目实施社会稳定风险评估与风险防控措施报告.docx
- 聚焦2025:工业互联网平台区块链智能合约安全防护机制与技术创新报告.docx
- 数字艺术作品版权保护与版权保护行业自律发展趋势分析报告.docx
- 装备制造业2025年自主创新能力提升与产业升级路径报告.docx
- 2025年文化创意产业园区产业集聚与区域经济发展研究报告.docx
- 2025年电商平台大数据分析:揭秘消费者购买心理,助力精准营销报告.docx
- 2025年金融行业反洗钱技术智能化发展及监管应对策略研究报告.docx
文档评论(0)