- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
01??背景
自动驾驶是逐渐从预言阶段向工业化阶段的一个过渡,具体表现可分为4点。首先,在大数据的背景下,数据集的规模在快速扩张导致以前在小规模数据集上开发原型的细节会被大量过滤掉,能在大规模数据上有效的工作才会被留下来。其次是关注点的切换,从单目切换到多目场景,导致复杂度提升。然后是倾向于对应用友好的设计,如输出的空间从图像空间向BEV空间的转移。
最后就是从之前单纯追求精度到逐渐同时考虑推理速度。同时自动驾驶场景下需要快速响应,因此对性能的要求会考虑速度方面,另外就是更多的去考虑如何部署到边缘设备。
还有一部分的背景是在过去10年里,视觉感知在深度学习的推动下快速发展,分类检测、分割等主流的方向上有大量的工作以及部分相当成熟的范式。自动驾驶场景里的视觉感知在发展的过程中,像特征编码的目标定义、感知范式和监督等方面都大量借鉴了这些主流的方向,因此在投身自动驾驶感知之前,这些主流的方向都应该去涉猎一下。
在这些背景之下,过去一年涌现了大量针对大规模数据集的三维目标检测工作,如图1所示(标红的为曾经第一过的算法)。
图1三维目标检测近一年发展
02??技术路线
2.1Lifting
自动驾驶场景中视觉感知和主流的视觉的感知区别主要在于给定的目标定义空间不同,主流的视觉感知的目标定义在图像空间,自动驾驶场景的目标定义在3维空间。在输入都是图像的情况下,获取3维空间的结果就需要有一个Lift的过程,这就是自动驾驶视觉感知核心的问题。我们可以把解决Lift对象问题的方法分为输入、中间特征和输出,输入级别的一个例子就是视角变化,其原理是利用图像去推理深度信息,然后利用深度信息把图像的RGB值投影到三维空间,得到一个带颜色的点云,后面就沿用点云检测的相关工作。目前比较有前景的是特征级别的变换或特征级别的Lift,如DETR3D这些都是在特征级别进行空间变化,特征级别变换的好处是可以避免重复的去提取图像级别的特征,计算量小,也可以避免输出级别的环视结果融合的问题。当然特征级别的转换也会有一些典型的问题,如通常会用到一些奇怪的OP,导致部署的时候并不友好。?目前特征级别的Lift过程比较鲁棒的主要有基于深度和注意力机制策略,分别具有代表性的为BEVDet和DETR3D。基于深度的策略是通过计算图像的每一点的深度,然后根据相机的成像模型把特征投影到3维空间,从而完成Lift的一个过程。基于注意力机制的策略是通过预先定义3维空间中的一个对象当做query,通过内外参找到和三维空间中点所对应的图像特征当做key和value,再通过attention的方式去计算得到一个3维空间中对象的一个特征。当前所有的算法都基本上高度依赖于相机模型,无论是基于深度的还是基于注意力机制的,这就会导致对标定敏感以及计算过程普遍偏复杂。而那些抛弃相机模型的算法往往会缺乏鲁棒性,所以这方面还没有完全的成熟。
2.2Temporal
时序(Temporal)的信息可以有效提高目标检测的效果。对于自动驾驶的场景来说,时序具有更深层次的意义在于目标的速度是当前场景下主要的感知目标之一。速度重点在于变化,单帧数据并不具备充分的变化信息,因此需要去建模来提供时间维度的一个变化信息。现有的点云时序建模方法是把多帧的点云混合在一起作为输入,这样可以得到比较稠密的点云,使得检测更准确。另外多帧的点云含有持续的信息,后面在网络训练过程中通过BP学会如何提取这个持续的信息,以解决速度估计这种需要持续信息的任务。视觉感知的时序建模方式主要来源于BEVDet4D和BEVFormer。BEVDet4D通过简单的融合两帧的一个特征,为后续的网络提供一个持续的信息。另外一个路径是基于attention的,同时提供单时帧和逆时针的特征作为query的一个对象,然后通过attention的方式同时去查询这两个特征,从而去提取时序的信息。
2.3Depth
自动驾驶视觉感知相比于雷达感知的一个最大的缺点就是深度估计的准确度。论文《probabilisticandgeometricdepth:detectingobjectsinperspective》通过替换GT的方法来研究不同因素对表现分的影响程度,分析得到的主要结论是精确的深度估计可以带来显著的性能提升。但深度估计是当前视觉感知的一个主要的瓶颈,目前改进的思路主要就有两种,一种是在PGD里面利用几何约束对预测的深度图进行refine。另一种是利用激光雷达作为监督去获得一个鲁邦性更好的深度估计。目前流程上优胜的方案BEVDepth,是在训练的过程中利用激光雷达所提供的深度信息去对变化过程中的深度估计进行监督,和感知的主任务同时进行。
2.4Muti-modality/Multi-Task
多任务是希望在一个统一的框架上去完成多种的感
文档评论(0)