- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于视觉语言基础模型的行人意图预测
MohsenAzarmi,MahdiRezaei,andHeWang
Abstract—行人过马路意图的预测是自动驾驶车辆的一
项关键功能。传统的基于视觉的方法在交叉口意图预测方面
通常难以实现泛化、情境理解和因果推理。本研究探讨了通
过分层提示模板整合多模态数据来利用视觉-语言基础模型
(VLFMs)进行行人过马路意图预测的可能性。该方法将包
括视觉帧、物理线索观察和自我车辆动态在内的上下文信息系
统地整合到优化的提示中,以有效引导VLFMs进行意图预
测。实验在三个常见数据集—JAAD、PIE和FU-PIP上进
行。结果表明,纳入车辆速度及其随时间的变化以及具有时间
本意识的提示显著提高了预测准确性,提升了19.8%。此外,通过
自动提示工程框架生成的优化提示进一步带来了12.5%的准确
译率提升。这些发现突显了VLFMs相较于传统基于视觉模型的
中优越性能,为自动驾驶应用提供了增强的泛化能力和情境理解。
1
vI.介绍
1Fig.1.视觉语言交叉意图预测模型概述。自动提示工程师(APE)根据
4自动驾驶车辆(AVs)的安全和高效运行依赖于理任务角色、行人行为和动态运动线索(例如,车辆速度)生成分层提示。
1
4解行人过马路的意图。准确预测行人的意图可以提高高了跨模态理解任务[19]的表现。尽管一些近期研究
0.安全性,使AVs能够预判行动并相应调整速度和轨迹。探讨了将VLFMs用于行人意图预测任务[20]–[22],
7然而,由于行人行为的复杂性,受个体特征、社会互
0它们仍然存在关键性的限制。首先,这些方法往往未
5动和环境因素的影响,这一任务仍然具有挑战性[1]。
2能有效捕捉动态行人行为中至关重要的时间依赖性,
:传统的基于计算机视觉的过马路意图预测模型通
v而是依赖于静态或有限的上下文线索。其次,它们的
i常使用深度学习技术,如CNNs[2]–[4]、RNNs[5]–[7]、
x表现对提示变化非常敏感,因为提示通常是以任意或
rGCNs[8],[9]和Transformers[10]–[12],专注于身体
a临时的方式设计的,缺乏系统化的结构。最后,这些研
姿态[13],[14]、时空关系[15],[16]和行人车辆动态
究常常忽略了车辆动力学因素(如速度和加速度)在
[17]等视觉特征。虽然有效,这些模型在动态交通环
理解行人意图方面的重要作用,而这对于理解交通场
境[18]中面临泛化能力、情境理解和因果推理方面的
景[10],[23],[24]是至关重要的。
困难。
本研究探讨了四种最先进的VLFMs在行人过街
视觉语言基础模型(VLFMs)是大规模预训练
意图预测中的应用,特别关注提示工程以及将车辆速
的机器学习模型,它们整合了视觉和文本模态以实
度变化和时间意识提示整合到意图预测
您可能关注的文档
- HyperSumm-RL:用于建模社交机器人领导力感知的对话摘要框架-计算机科学-自然语言处理-社交机器人-对话语言模型.pdf
- 计数函数的低集-计算机科学-计算复杂性-算法.pdf
- VICI-基于 VLM 指导的跨视图图像定位-计算机科学-图像定位-视觉语言模型-图像检索.pdf
- 论控制股东诚信义务:法理、实践与制度构建.docx
- 论政府信息公开中第三人权利救济:法理、实践与完善路径.docx
- 论石墨烯材料化学调控机制与多元应用拓展.docx
- 论研新生代小说历史观:多元视角下的审视与解读.docx
- 论秦观词的点化艺术:传承、创新与影响.docx
- 基于数值模拟的铸造铝合金显微气孔形成机制与影响因素探究.docx
- 遗忘 - 记忆机制视角下非平衡相变普适类的深度剖析与拓展.docx
文档评论(0)