基于深度学习的单目深度估计算法研究.pdfVIP

基于深度学习的单目深度估计算法研究.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
标题基于深度学习的单目深度估计算法研究主要内容一提出基于空间金字塔与混合注意力机制的单目深度估计算法该算法由三个主要模块组成特征提取模块空间金字塔模块和混合注意力机制模块二提出基于SwinTransformer的单目视频深度估计算法由于卷积神经网络的感知区域有限,仅支持在指定感受野范围内进行推理运算,提取的局部特征难以精确地估量出某一个物体的深度三结合Lyu的工作原理,引入了多尺度连接,使得网络结构不限于局部推理

基于深度学习的单目深度估计算法研究

摘要

图像深度估计是计算机视觉领域中的一项重要研究任务,作为场景理解的上游任务,

该项技术已被广泛用于无人驾驶、虚拟现实、机器人导航等领域。单目深度估计算法是

如今的研究热点,与双目深度估计算法相比,单目深度估计算法不需要专业的仪器且成

本低廉。传统单目深度估计算法是利用阴影、纹理等线索来恢复深度信息,但是它容易

被外界环境所影响,不具有良好的普适性。基于深度学习的单目深度估计算法利用图像

中物体的三维几何结构等线索恢复场景深度信息,并对环境条件要求较低,因此具有更

高的研究和应用价值。

当前,基于深度学习的单目深度估计算法仍面临许多挑战,诸如物体边界模糊、薄

结构物体丢失、特征利用率低、估计精度不高等。针对以上问题,本文立足于深度学习

方法,对单目深度估计算法展开研究,具体研究内容如下:

(1)提出了基于空间金字塔与混合注意力机制的单目深度估计算法,该算法由三

个主要模块组成:特征提取模块、空间金字塔模块和混合注意力机制模块。本研究使用

ResNeXt作为骨干网络,该网络融入“分离-变换-聚合”的思想,能在不增加模型复杂度

的基础上,提高网络模型的准确度。在浅层特征和深层特征融合之前,为了使浅层特征

能够包含多个尺度的特征信息,在跳跃连接中引入空间金字塔模块。解码器端引入了由

空间注意力机制和通道注意力机制组成的混合注意力机制模块,通过学习的方式动态调

整权重值,从而增强目标物体区域而弱化不相关的背景区域。实验结果表明所提出的算

法提升了单目深度估计的精度。

(2)提出了基于Swin-Transformer的单目视频深度估计算法,由于卷积神经网络的

感知区域有限,仅支持在指定感受野范围进行推理运算,提取的局部特征难以精确地估

计出某一个物体的深度。采用Swin-Transformer作为骨干网络使得网络结构不限于局部

推理而是支持全局建模。除此之外还引入了位姿估计网络,该网络将一对连续的帧作为

输入,并产生一个由平移和旋转参数组成的变换矩阵,代表两图像帧之间的视角变化。

另外,从Lyu等人的工作中得到启发,我们在解码器端加入了多尺度连接,以便有效地

恢复通常在下采样过程中丢失的细节。通过使用每个网络层级上提取的特征,我们的模

型能够在单目深度估计中取得优于同类算法的结果。

关键字:单目深度估计;多尺度;注意力机制;移动窗口变换器结构

I

基于深度学习的单目深度估计算法研究

Abstract

Estimatingdepthinimagesisacriticalcomputervisiontaskwithmanyapplicationsin

upstreamtaskssuchassceneunderstandingforautonomousdriving,virtualreality,androbot

navigation.Incontrasttobinoculardepthestimationalgorithms,monoculardepthestimation

algorithmsofferacost-effectivealternativeastheydonotrequirespecializedequipmentor

instruments.Traditionalmonoculardepthestimationalgorithmsrelyoncueslikeshadowsand

textures,whicharesusceptibletoenvironmentaldisturbancesandlackgeneralizability.In

contrast,deeplearning-basedmonoculardepthestimationalgorithmsrecoverscenedep

文档评论(0)

159****1944 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档