- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
建模潜在合作伙伴策略
以实现自适应零样本人机协作
BenjaminLi,ShuyangShi,LuciaRomero,HuaoLi,YaqiXie,WoojunKim,
StefanosNikolaidis,MichaelLewis,KatiaSycara,andSimonStepputtis
CarnegieMellonUniversity,UniversityofPittsburgh,UniversityofSouthernCaliforniaVirginiaTech
摘要—在协作任务中,能够适应队友是成功的一个必要条基线代理收集的行为轨迹数据进行离线训练,这些基线
件。当队友存在异质性时,例如在人机团队中,代理需要能够在代理使用不同的奖励塑造目标进行训练,其目的是预
实时环境中观察、识别并适应其人类伙伴。这在时间紧迫且战略测每个代理的下一个高层次动作(例如,“拿起一个盘
空间复杂的任务中变得尤为具有挑战性,在这种情况下动态变化
本子”)。随后,利用K-Means聚类并通过轮廓分析[29]
可能非常迅速。在这项工作中,我们介绍了TALENTS(一种策
译略条件下的合作框架),它能够学习表示、分类并适应一系列合来确定此类簇的最佳数量和位置,来捕获有意义的行为
中作伙伴的策略,从而实现即兴团队合作。我们的方法利用变分自模式。TALENTS合作代理训练过程利用VAE的生成
1编码器从轨迹数据中学习潜在策略空间。这个潜在空间代表了代能力,通过对集群进行采样产生伙伴代理,同时使合作
v理所采用的基本策略。随后,系统通过对数据进行聚类来识别不者依赖这些集群以开发特定策略的响应。在测试时,代
4
4同类型的策略。最后,训练一个合作者代理根据这些聚类生成每理通过比较从每个行为聚类中采样的动作与实际观察
2种策略类型的伙伴。为了适应之前未曾遇到的伙伴,我们利用了
5一个固定的共享遗憾最小化算法,该算法能够动态地推断并调整到的伙伴的动作来推断新伙伴的类型,并使用匹配度最
0.估计的伙伴策略。我们在定制版的Overcooked环境中评估了我好的行动簇作为可能的伙伴类型。TALENTS持续更新
7们的方法,提出了一个具有挑战性的合作烹饪任务,要求在广泛其信念并根据推断出的伙伴类型对其自身的行为进行
0
5的可能策略范围内进行强大的协调。通过在线用户研究,我们展条件设置,以实现更有效的协调,从而表现得像是对估
2示了当与不熟悉的合作伙伴一起工作时,我们的代理优于当前计伙伴的最佳响应。
:
v基线。
i
x
r
aI.介绍
随着AI代理和机器人越来越多地融入日常生活,为了测试我们的代理,我们在一个临时团队任务
开发有效的人机协作方法比以往任何时候都更加关键。中使用一组人类受试者,并采用了一个经过修改的
在临时团队合作环境中,代理人必须在没有预先了解合Overcooked环境。与之前的Overcooked环境不同,我
作伙伴的情况下进行合作,成功取决于准确预测合作伙们的设置通过订单上的计时器引入了额外的时间压力,
伴的行为并选择最大化共同表现的行动[33]。为了有效以及对快速交付的奖励。此外,它需要利用三个烹饪站
地协作,代理必须实时解释其合作伙伴的行为,并迅速来制作两种不同的食谱,极大地增加了有效团队合作的
而有效地做出反应,以应对人类合作伙伴使用的多样、需求。总结来说,我们提出了一种策略条件下的人类-
非稳定且常常次优策略。代理协作
文档评论(0)