推理微调重新定义了基础模型中的潜在表示-计算机科学-机器学习-推理微调-基础模型.pdfVIP

推理微调重新定义了基础模型中的潜在表示-计算机科学-机器学习-推理微调-基础模型.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

推理微调重新定义了基础模型中的潜在表示

*1*23

JakeWardChuqiaoLinConstantinVenhoffNeelNanda

Abstract能力来提升在推理密集型基准上的性能(Weietal.,

2022;Guoetal.,2025;Yeoetal.,2025;Yangetal.,

回溯,一种由推理微调引发的新兴行为,

2025;Yeetal.,2025)。这些模型往往会表现出一种被

已被证明是推理模型能力增强的关键机

称为回溯的新兴行为,在沿着一个推理路径前进或

制。先前的研究成功地通过引导矢量操纵

提出候选答案之后,模型会探索替代策略(Venhoff

了这种行为,但其底层机制仍未被充分理

etal.,2025)。实证研究表明,回溯的存在解释了基

解。在本研究中,我们展示了DeepSeek-R1-

础模型及其经过推理微调的对应模型之间的准确率

本Distill-Llama-8B中的回溯现象部分是由一差距的很大一部分(NiklasMuennighoff,2025)。

译个重新利用的方向已经在基础模型激活中

中存在驱动的。具体而言,我们在基础Llama-先前的工作表明,这种行为可以使用从被分类为回

3.1-8B的残差流中确定了一个方向,在用溯的句子中激活差异派生的控制向量可靠地诱导

1

v于引导蒸馏推理模型时系统地引发回溯,(Venhoffetal.,2025)。虽然Venhoff等人。已经

8并发现使用该方向进行引导的效果不能简表明,转向向量可以用来控制回溯行为,但这种行

3

6单地通过词元级别的属性来解释。我们进为背后的基本机制仍然知之甚少。

2

1一步发现这个方向不在基础模型中也能引在这项工作中,我们对回溯导向矢量进行了更深入

.

7起回溯,这表明推理微调过程重新利用了的研究,并探讨了它们在模型激活中的出现方式和

0

5现有表示以形成新的行为电路。此外,我位置。具体来说,我们发现可以通过(1)在偏移标

2们假设这个方向是几个可能协同工作的方记位置之前的回溯事件的激活,捕捉上游的相关概

:

v向之一,用于调节回溯现象。我们的研究结念;以及(2)仅从基础模型中采样的激活来计算一

i

x果提供了一个有说服力的图景,即推理微个回溯导向矢量,这表明回溯机制的部分基础来源

r

a调模型重新利用现有的基础模型表示,而于已经在基本模型激活中表示的概念(图1)。至关

不是从零开始学习新能力。重要的是,虽然这种表示同时被基本模型和推理模

型共享,但它只会在推理模型中引起回溯现象,暗

1.介绍示了它在推理微调过程中已被重新用于回溯机制的

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档