语言模型的 RL 微调以遵循指令和数学推理-计算机科学-大语言模型-强化学习-数学推理.pdf

语言模型的 RL 微调以遵循指令和数学推理-计算机科学-大语言模型-强化学习-数学推理.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本研究调查了强化学习(RL)微调技术在紧凑型语言模型(Qwen2.5-0.5BBase)上的有效性,针对两个具有挑战性的任务:指令跟随和数学推理。我们比较了监督微调(SFT)、使用偏好标记数据的直接偏好优化(DPO),以及带有奖励模型的ReinforceLeave-One-Out(RLOO)。我们的实验表明,结合DeBERTa奖励建模的RLOO达到了最佳对齐效果,而DPO提供了强大且一致的结果。对于数学推理任务,合成数据增强和使用外部验证器的最佳N抽样显著提高了准确性,显

扩展摘要

动机近期在生成语言模型(LMs)方面的研究已经在自然语言理解和生成方面取得了令人

印象深刻的结果。然而,将小规模的LMs微调以在不同的推理任务上表现出色,如指令跟

随和数学推理,仍然是一个挑战。为了解决这个问题,我们调查了基于强化学习(RL)的微

调方法在一个紧凑、开源的语言模型(Qwen2.5-0.5BBase)上的表现,以便理解偏好对齐和

领域特定适应之间的权衡。

方法我们比较了三种微调技术:监督微调(SFT)、直接偏好优化(DPO)和强化留一验

证(RLOO)。通过训练并比较多个奖励模型来探索RLOO,这些模型包括DeBERTa、Distil-

BERT和SiameseDistilBERT。在指令跟随任务中使用Smoltalk和Ultrafeedback数据集进行

测试。基于监督微调的数学推理任务模型扩展了附加合成数据和最佳N采样方法。这一点已

在Countdown数据集上得到验证。

本实现所有模型均使用全参数和低秩适应(LoRA)配置进行微调。我们通过GPT-4o生成的

译合成样本进行数据增强,并在推理时通过最佳N采样结合外部验证函数来选择响应。

中结果实验结果表明,在完整设置和LoRA设置中,使用DPO进一步提高了与SFT相比的

1结果。在RLOO变体之间,使用DeBERTa作为奖励模型的生成最高的一致性得分。对于数

v学推理任务,使用合成数据略微提高了性能,而带有外部验证器的最佳N采样产生了显著的

0

6提升,准确率超过0.81,是使用SFT的两倍多。

5

1讨论结果表明,轻量级LM在有效微调和使用辅助工具后可以达到合理的性能。奖励模型

2

.的质量和采样响应的多样性对RLOO很重要。此外,使用外部验证器与最佳N采样引入了

6一种低成本方法来提高数学推理过程中的预测准确性。

0

5

2结论本工作展示了通过结合强化学习微调策略、合成数据和最佳N采样方法,在多种推理

:

v任务中对小型语言模型进行对齐的可行性和有效性。它强调了在计算资源受限的情况下,优

i

x化小型LM下游任务性能的实际考虑因素。

r

a

语言模型的RL微调以遵循指令和数学推理

YifuHanGeoZhang

DepartmentofEnergyScienceEngineeringDepartmentofEnergyScienceEngineering

StanfordUniversityStanfordUniversity

yifu@gmzhang@

Abstract

本研究调查了强化学习(RL)微调技术在紧凑型语言模型(Qwen2.5-0.5B

Base)上的有效性,针对两个具有挑战性的任务:指令跟随和数学推理。我

们比较了监督微调(SFT)、使用偏好标记数据的直接偏好优化(DPO),以

及带有奖励模型的ReinforceLeave-One-Out(RLOO)。我们的实验表明,结

合DeBERTa奖励建模的RLOO达到了最佳对齐效果,而DPO提供了强大

且一致的结果。对于数学推理任务,合成数据增强和使用外部验证器的最佳

N抽样显著提高了准确性,显示出微调与推断时工具结合的潜力。本研究强

调了训练轻

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档