超越 LLM 的定制对话：基于 RL 的对话管理器-计算机科学-大语言模型-对话管理器.pdf

下载文档

0
0
约2.9万字
约 10页
2025-07-26 发布于北京
举报
版权申诉
保障服务

超越 LLM 的定制对话：基于 RL 的对话管理器-计算机科学-大语言模型-对话管理器.pdf

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

超越LLM的定制对话：基于RL的对话管理器

LucieGallandCatherinePelachaudFlorianPecune

ISIRCNRS/ISIRCNRS/SANPSY

SorbonneUniversitySorbonneUniversityUniv.Bordeaux

Paris,FranceParis,FranceBordeaux,France

galland@isir.upmc.frpelachaud@isir.upmc.frpecune@u-bordeaux.fr

Abstract加以解决(Prochaskaetal.,2021;Olafssonetal.,

2020)。然而，自然语言处理（NLP）方面的最

在这项工作中，我们提出了一种将大型语

新进展为利用像GPT架构这样的大型语言模

本言模型（LLMs）与基于RL的对话管理器型（LLMs）在这些应用中铺平了道路(Baktash

译集成的新框架，用于具有特定目标的开放andDawodi,2023)，显著扩展了对话系统在各个

中式对话。通过利用分层强化学习来建模对领域的范围(Steenstraetal.,2024)。尽管这些模

话的结构化阶段，并采用元学习来提高跨

2不同用户档案的适应性，我们的方法增强型表现出非凡的语言生成能力，但它们也存在

2了系统的适应性和效率，使系统能够从有重大限制，其中许多可以通过“传统”的对话研

限的数据中学习，在对话阶段之间流畅过

6究见解来解决。特别是，LLMs往往缺乏传统基

9渡，并个性化回应异质患者的需要。我们将

1于规则系统的可控性和结构化决策能力，后者

.框架应用于动机访谈，旨在促进行为改变，

6更可预测和可解释(Shidaraetal.,2020)。基于规

0并证明所提出的对话管理器在奖励方面优

5于最先进的LLM基准，显示出将LLMs条则的领域特定对话系统(Hadietal.,2024)提供

:件化以创建具有特定目标的开放式对话系了显著的优势，包括改进的可控性、可解释性

i统的潜在益处。和整合专家知识的能力。然而，它们通常适应

r性较差且开发资源密集度较高。相比之下，大语

a1介绍

言模型在跨域方面表现出强大的适应性，但在

近年来，对心理健康服务的需求激增，超过实现控制、透明度和效率方面面临挑战。此外，

了资源的可用性，导致获得护理方面存在巨大将专家知识融入大语言模型往往需要大量的领

差距(Cameronetal.,2017)。因此，许多患者在接域特定数据(Hadietal.,2024)。值得注意的是，

受治疗前面临

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

超越 LLM 的定制对话：基于 RL 的对话管理器-计算机科学-大语言模型-对话管理器.pdf