- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
扩展摘要
动机近期在生成语言模型(LMs)方面的研究已经在自然语言理解和生成方面取得了令人
印象深刻的结果。然而,将小规模的LMs微调以在不同的推理任务上表现出色,如指令跟
随和数学推理,仍然是一个挑战。为了解决这个问题,我们调查了基于强化学习(RL)的微
调方法在一个紧凑、开源的语言模型(Qwen2.5-0.5BBase)上的表现,以便理解偏好对齐和
领域特定适应之间的权衡。
方法我们比较了三种微调技术:监督微调(SFT)、直接偏好优化(DPO)和强化留一验
证(RLOO)。通过训练并比较多个奖励模型来探索RLOO,这些模型包括DeBERTa、Distil-
BERT和SiameseDistilBERT。在指令跟随任务中使用Smoltalk和Ultrafeedback数据集进行
测试。基于监督微调的数学推理任务模型扩展了附加合成数据和最佳N采样方法。这一点已
在Countdown数据集上得到验证。
本实现所有模型均使用全参数和低秩适应(LoRA)配置进行微调。我们通过GPT-4o生成的
译合成样本进行数据增强,并在推理时通过最佳N采样结合外部验证函数来选择响应。
中结果实验结果表明,在完整设置和LoRA设置中,使用DPO进一步提高了与SFT相比的
1结果。在RLOO变体之间,使用DeBERTa作为奖励模型的生成最高的一致性得分。对于数
v学推理任务,使用合成数据略微提高了性能,而带有外部验证器的最佳N采样产生了显著的
0
6提升,准确率超过0.81,是使用SFT的两倍多。
5
1讨论结果表明,轻量级LM在有效微调和使用辅助工具后可以达到合理的性能。奖励模型
2
.的质量和采样响应的多样性对RLOO很重要。此外,使用外部验证器与最佳N采样引入了
6一种低成本方法来提高数学推理过程中的预测准确性。
0
5
2结论本工作展示了通过结合强化学习微调策略、合成数据和最佳N采样方法,在多种推理
:
v任务中对小型语言模型进行对齐的可行性和有效性。它强调了在计算资源受限的情况下,优
i
x化小型LM下游任务性能的实际考虑因素。
r
a
语言模型的RL微调以遵循指令和数学推理
YifuHanGeoZhang
DepartmentofEnergyScienceEngineeringDepartmentofEnergyScienceEngineering
StanfordUniversityStanfordUniversity
yifu@gmzhang@
Abstract
本研究调查了强化学习(RL)微调技术在紧凑型语言模型(Qwen2.5-0.5B
Base)上的有效性,针对两个具有挑战性的任务:指令跟随和数学推理。我
们比较了监督微调(SFT)、使用偏好标记数据的直接偏好优化(DPO),以
及带有奖励模型的ReinforceLeave-One-Out(RLOO)。我们的实验表明,结
合DeBERTa奖励建模的RLOO达到了最佳对齐效果,而DPO提供了强大
且一致的结果。对于数学推理任务,合成数据增强和使用外部验证器的最佳
N抽样显著提高了准确性,显示出微调与推断时工具结合的潜力。本研究强
调了训练轻
您可能关注的文档
- SERP 干扰网络及其在有哪些信誉好的足球投注网站广告中的应用-计算机科学-电子商务-有哪些信誉好的足球投注网站引擎优化.pdf
- 评估多模态大型语言模型在教育教科书问题回答中的表现-计算机科学-教育人工智能-多模态大型语言模型.pdf
- SignBart - 用于孤立手语识别的新骨架序列方法-计算机科学-人工智能-手语识别.pdf
- 基于大型语言模型的在线商店食品产品信息提取策略评估-计算机科学-大语言模型-食品产品信息提取.pdf
- 评估 RAG 和 HyDE 在 1B 与 4B 参数 Gemma 大语言模型中作为个人助理集成的情况-计算机科学-大语言模型-检索增强生成-个人助理.pdf
- 反向翻译在高质量低资源英语 – 古吉拉特语机器翻译中的饱和点-计算机科学-机器翻译.pdf
- 利用机器人集群估计空间依赖的 GPS 误差-计算机科学-机器学习-机器人集群.pdf
- 特里顿 Z-一种带有操纵臂的远程操作水下漫游器,用于探索和救援行动-计算机科学-机器人-水下探索和救援.pdf
- 2025年智慧社区建设标准与智慧交通融合报告.docx
- 元宇宙虚拟商品交易法律规制2025年监管政策实施效果分析.docx
- 2025年智慧社区老年日间照料服务运营模式与老年人生活满意度调查.docx
- 脑机接口技术在神经科学实验中的应用现状研究报告.docx
- 2025年氢能重卡加氢站布局优化与区域经济发展战略研究.docx
- 绿色健身新时代:2025年公园健身设备智能化改造路径研究.docx
- 2025年智慧法律咨询平台建设与运营模式研究.docx
- 中国低空经济未来发展展望:2025年通用航空机场经济效益研究报告.docx
- 生鲜电商2025年损耗率降低与物流配送体系优化报告.docx
- 2025年线上法律咨询援助平台与法律机构合作模式研究.docx
- 2025年电动环卫车跨境清洁服务市场环保法规执行情况研究.docx
- 低空交通产业无人机监管政策及法规解读白皮书2025.docx
文档评论(0)