语言模型的 RL 微调以遵循指令和数学推理-计算机科学-大语言模型-强化学习-数学推理.pdf

下载文档

0
0
约1.34万字
约 9页
2025-07-17 发布于北京
举报
版权申诉
保障服务

语言模型的 RL 微调以遵循指令和数学推理-计算机科学-大语言模型-强化学习-数学推理.pdf

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

本研究调查了强化学习（RL）微调技术在紧凑型语言模型（Qwen2.5-0.5BBase）上的有效性，针对两个具有挑战性的任务：指令跟随和数学推理。我们比较了监督微调（SFT）、使用偏好标记数据的直接偏好优化（DPO），以及带有奖励模型的ReinforceLeave-One-Out(RLOO)。我们的实验表明，结合DeBERTa奖励建模的RLOO达到了最佳对齐效果，而DPO提供了强大且一致的结果。对于数学推理任务，合成数据增强和使用外部验证器的最佳N抽样显著提高了准确性，显

扩展摘要

动机近期在生成语言模型（LMs）方面的研究已经在自然语言理解和生成方面取得了令人

印象深刻的结果。然而，将小规模的LMs微调以在不同的推理任务上表现出色，如指令跟

随和数学推理，仍然是一个挑战。为了解决这个问题，我们调查了基于强化学习（RL）的微

调方法在一个紧凑、开源的语言模型（Qwen2.5-0.5BBase）上的表现，以便理解偏好对齐和

领域特定适应之间的权衡。

方法我们比较了三种微调技术：监督微调（SFT）、直接偏好优化（DPO）和强化留一验

证（RLOO）。通过训练并比较多个奖励模型来探索RLOO，这些模型包括DeBERTa、Distil-

BERT和SiameseDistilBERT。在指令跟随任务中使用Smoltalk和Ultrafeedback数据集进行

测试。基于监督微调的数学推理任务模型扩展了附加合成数据和最佳N采样方法。这一点已

在Countdown数据集上得到验证。

本实现所有模型均使用全参数和低秩适应（LoRA）配置进行微调。我们通过GPT-4o生成的

译合成样本进行数据增强，并在推理时通过最佳N采样结合外部验证函数来选择响应。

中结果实验结果表明，在完整设置和LoRA设置中，使用DPO进一步提高了与SFT相比的

1结果。在RLOO变体之间，使用DeBERTa作为奖励模型的生成最高的一致性得分。对于数

v学推理任务，使用合成数据略微提高了性能，而带有外部验证器的最佳N采样产生了显著的

6提升，准确率超过0.81，是使用SFT的两倍多。

1讨论结果表明，轻量级LM在有效微调和使用辅助工具后可以达到合理的性能。奖励模型

.的质量和采样响应的多样性对RLOO很重要。此外，使用外部验证器与最佳N采样引入了

6一种低成本方法来提高数学推理过程中的预测准确性。

2结论本工作展示了通过结合强化学习微调策略、合成数据和最佳N采样方法，在多种推理

v任务中对小型语言模型进行对齐的可行性和有效性。它强调了在计算资源受限的情况下，优

x化小型LM下游任务性能的实际考虑因素。

语言模型的RL微调以遵循指令和数学推理

YifuHanGeoZhang

DepartmentofEnergyScienceEngineeringDepartmentofEnergyScienceEngineering

StanfordUniversityStanfordUniversity

yifu@gmzhang@

Abstract

本研究调查了强化学习（RL）微调技术在紧凑型语言模型（Qwen2.5-0.5B

Base）上的有效性，针对两个具有挑战性的任务：指令跟随和数学推理。我

们比较了监督微调（SFT）、使用偏好标记数据的直接偏好优化（DPO），以

及带有奖励模型的ReinforceLeave-One-Out(RLOO)。我们的实验表明，结

合DeBERTa奖励建模的RLOO达到了最佳对齐效果，而DPO提供了强大

且一致的结果。对于数学推理任务，合成数据增强和使用外部验证器的最佳

N抽样显著提高了准确性，显示出微调与推断时工具结合的潜力。本研究强

调了训练轻

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

语言模型的 RL 微调以遵循指令和数学推理-计算机科学-大语言模型-强化学习-数学推理.pdf