支持注视的大型语言模型框架用于双向人机交互-计算机科学-大语言模型-机器人-人机交互.pdfVIP

支持注视的大型语言模型框架用于双向人机交互-计算机科学-大语言模型-机器人-人机交互.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

支持注视的大型语言模型框架用于双向人机交互

JensV.Rüppel,AndreyRudenko,TimSchreiter,MartinMagnusson,andAchimJ.Lilienthal

Abstract—大型语言模型(LLMs)的快速发展为辅助机

器人的灵活、通用知识驱动的人机交互(HRI)系统创造了令人

兴奋的可能性。现有的HRI系统在解释和遵循用户指令、动作

生成以及机器人任务解决方面取得了重大进展。另一方面,在

协作任务中对用户的双向、多模态和支持上下文的支持仍然是

一个开放的挑战。本文提出了一种基于注视和语音的辅助机器

人接口,该接口能够从多个视觉输入感知工作环境并支持动态

用户执行其任务。我们的系统设计为模块化且可转移以适应各

种任务和机器人,并由于语言交互状态表示和快速的车载感知

模块而具有实时能力。该系统的开发得到了多次公开推广活动

的支持,对提高鲁棒性和用户体验提出了重要考虑。此外,在

实验室研究中,我们将我们系统的性能和用户评分与传统的脚

本HRI管道进行了比较。我们的发现表明,基于LLM的方法

增强了适应性,并在一定程度上提高了用户参与度和任务执行

本指标,但可能会产生冗余输出,而脚本管道更适用于更为直接Fig.1:机器人和用户之间的双向目光与语音支持的交

译的任务。流,通过我们的框架实现:(a)用户正在问机器人把物

体放在哪里,(b)机器人指向盒子,(c)人正看着桌子

中I.介绍上的一个盒子,寻求确认,(d)机器人做出点头手势并

1人机交互(HRI)在工作场所环境中的研究旨在开口头确认。

v

9发使机器人能够有效地与人类工人协作并支持多样且

2动态任务的方法。尽管最近的框架在任务规划[1]、机

7器人控制[2]和用户命令执行[3]方面展示了有希望的法可以检测用户的意图或困惑,并生成适当的上下文

5结果,但它们通常无法提供智能和自适应的帮助,在响应和动作,参见图1中的示例。

1.现实时间里灵活应对人类行为,特别是在开放性和非我们的工作也有助于可转移的机器人意图沟通。

7结构化环境中。该框架可以以最小的努力适应不同的机器人平台,减

0现代的人机交互框架在响应环境变化方面往往缺少了特定任务修改或重新编程的需求。为了展示这一

5乏动态适应性,这种变化发生在用户独立或与机器人点,我们使用“拟人化机器人模拟驾驶员”(ARMoD)机

2

:协作执行任务时。这些互动中的脚本程序通常预期特器人通信概念来评估我们的方法,针对非类人机器人

v定的用户输入以维持交互流程,并且如果环境达到不[6]–[8]。

i

x可预测的状态[4],可能会延迟甚至完全失败。此外,我们系统的开发得到了几次公共推广活动的支

r这些框架通常是为特定任务[5]设计并优化的,由特定持,在这些活动中,我们可以研究各种感知和推理组

a

机器人执行,缺乏快速适应不同场景的能力。近年来,件的实时实际性能,并增强已开发解决方案的鲁棒性。

研究界朝着通用具身人工智能发展,通过先进的环境为了验证我们的框架,我们进行了两项多步骤空间交

感知和推理能力超越了上述问题。互实验(其中部分内容已在先前的工作[4]中讨论过),

在这篇论文中,我们提出了一种以用户为中心的参与者必须与通过ARMoD通信的移动机器人参与协

多模态输入和输出以及3D环境分布式感知的人机交作任务。我们的研究目的是调查我们在制造HRI情境

互框架。该框架使用基于大型语言模型(LLM)的主中的可转移、多模态人机交互框架是否优于等效的静

干来确定输入并

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档