通过将视觉基础模型与强化学习相结合以提升物体交互能力.pdfVIP

下载本文档

1
0
约1.97万字
约 7页
2025-10-13 发布于北京
举报
版权申诉

通过将视觉基础模型与强化学习相结合以提升物体交互能力.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

通过将视觉基础模型与强化学习相结合以提升物体交互能力

AhmadFarooq*andKamranIqbal

Abstract—本文提出了一种新颖的方法，将视觉基础模型AnythingModel(SAM)[12]，在目标检测和分割任务

与强化学习结合，在模拟环境中增强对象交互能力。通过结合中表现出卓越的能力。这些模型在大量数据集上进行

SegmentAnythingModel(SAM)和YOLOv5以及在AI2-THOR

预训练，并且可以在各种领域中泛化，减少了对特定

仿真环境中的近端策略优化(PPO)代理，我们使代理能够更有

效地感知和与对象互动。我们在四个不同的室内厨房设置中进任务训练数据的依赖。通过将这些模型与RL代理结

行全面实验，结果表明与没有先进感知功能的基线代理相比，合，我们可以增强代理的感知理解能力，从而提高涉

对象交互成功率和导航效率显著提高。结果显示平均累积奖励及与环境复杂交互的任务性能。

提高了68%，对象交互成功率提升了52.5%，导航效率增加了

33%。这些发现突显了将基础模型与强化学习结合在复杂机器在这项工作中，我们提出了一种结合视觉基础模

本人任务中的潜力，为更高级和能干的自主代理铺平道路。型与强化学习的新方法，以增强模拟环境中物体交互

译索引术语：强化学习，对象交互，视觉基础模型，任意分的能力。具体而言，我们将SAM和YOLOv5集成到

中割模型，AI2-THOR模拟在AI2-THOR仿真环境[13]中运行的近端策略优化

1I.介绍(PPO)代理的感觉管道中。AI2-THOR环境提供了丰富

v的可交互3D场景，为训练代理执行对象交互和导航

8自主代理的发展，使其能够与复杂环境互动，是机

3任务提供了一个合适的平台。

8器人技术和人工智能领域的基本目标。实现这一目标

5我们的方法解决了几个关键挑战：

0的关键挑战在于为代理配备先进的感知和决策能力，

.感知整合:我们开发了一种方法，能够有效地将

8使它们能够有效理解和操控周围的环境。强大的感知

0能力使得代理能够识别和定位物体、理解空间关系以SAM和YOLOv5的输出整合到代理的观察空间

5中，从而在不产生过高计算成本的情况下提升场

2及解析动态场景[1],[2]。强化学习（RL）提供了一个

:景理解能力。

v框架，让代理通过与环境的试错互动来学习最优行为

i奖励函数设计:我们制定一个奖励函数，该函数

x[3],[4]。

r平衡了探索、物体交互和目标达成，引导智能体

a最近计算机视觉和强化学习的进步已在诸如视觉

学习与物体高效交互的策略。

导航[5],[6]、物体操控[7],[8]和人机交互[9],[10]等

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

服务提供商

专业Latex文档翻译，完整保持文档排版，完美处理文档中的数学公式和图表等元素，并提供 arXiv Latex 论文中文翻译。

咨询作者（0人已咨询）服务中

1亿VIP精品文档

更多 >

通过将视觉基础模型与强化学习相结合以提升物体交互能力.pdfVIP