Processing math: 4%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

联合语义分割的自监督单目深度估计方法

宋霄罡, 胡浩越, 宁靖宇, 梁莉, 鲁晓锋, 黑新宏

宋霄罡, 胡浩越, 宁靖宇, 梁莉, 鲁晓锋, 黑新宏. 联合语义分割的自监督单目深度估计方法[J]. 计算机研究与发展, 2024, 61(5): 1336-1347. DOI: 10.7544/issn1000-1239.202330485
引用本文: 宋霄罡, 胡浩越, 宁靖宇, 梁莉, 鲁晓锋, 黑新宏. 联合语义分割的自监督单目深度估计方法[J]. 计算机研究与发展, 2024, 61(5): 1336-1347. DOI: 10.7544/issn1000-1239.202330485
Song Xiaogang, Hu Haoyue, Ning Jingyu, Liang Li, Lu Xiaofeng, Hei Xinhong. Self-Supervised Monocular Depth Estimation Method for Joint Semantic Segmentation[J]. Journal of Computer Research and Development, 2024, 61(5): 1336-1347. DOI: 10.7544/issn1000-1239.202330485
Citation: Song Xiaogang, Hu Haoyue, Ning Jingyu, Liang Li, Lu Xiaofeng, Hei Xinhong. Self-Supervised Monocular Depth Estimation Method for Joint Semantic Segmentation[J]. Journal of Computer Research and Development, 2024, 61(5): 1336-1347. DOI: 10.7544/issn1000-1239.202330485
宋霄罡, 胡浩越, 宁靖宇, 梁莉, 鲁晓锋, 黑新宏. 联合语义分割的自监督单目深度估计方法[J]. 计算机研究与发展, 2024, 61(5): 1336-1347. CSTR: 32373.14.issn1000-1239.202330485
引用本文: 宋霄罡, 胡浩越, 宁靖宇, 梁莉, 鲁晓锋, 黑新宏. 联合语义分割的自监督单目深度估计方法[J]. 计算机研究与发展, 2024, 61(5): 1336-1347. CSTR: 32373.14.issn1000-1239.202330485
Song Xiaogang, Hu Haoyue, Ning Jingyu, Liang Li, Lu Xiaofeng, Hei Xinhong. Self-Supervised Monocular Depth Estimation Method for Joint Semantic Segmentation[J]. Journal of Computer Research and Development, 2024, 61(5): 1336-1347. CSTR: 32373.14.issn1000-1239.202330485
Citation: Song Xiaogang, Hu Haoyue, Ning Jingyu, Liang Li, Lu Xiaofeng, Hei Xinhong. Self-Supervised Monocular Depth Estimation Method for Joint Semantic Segmentation[J]. Journal of Computer Research and Development, 2024, 61(5): 1336-1347. CSTR: 32373.14.issn1000-1239.202330485

联合语义分割的自监督单目深度估计方法

基金项目: 国家自然科学基金面上项目(52372418,62076201);国家自然科学基金联合基金项目(U1934222);陕西省重点研发计划项目(2022GY-245)
详细信息
    作者简介:

    宋霄罡: 1987年生. 博士,副教授. 主要研究方向为无人机自主导航、计算机视觉、图像处理

    胡浩越: 1997年生. 硕士. 主要研究方向为计算机视觉、图像处理、深度估计

    宁靖宇: 1997年生. 硕士研究生. 主要研究方向为深度估计、语义分割

    梁莉: 1964 年生. 硕士,副教授. 主要研究方向为计算机视觉与图像处理、嵌入式计算机控制、智能控制

    鲁晓锋: 1976年生. 博士,教授. 主要研究方向为计算机视觉、智能计算、模式识别

    黑新宏: 1976年生. 博士,教授. 主要研究方向为计算机视觉、人工智能

  • 中图分类号: TP39

Self-Supervised Monocular Depth Estimation Method for Joint Semantic Segmentation

Funds: This work was supported by the General Program of the National Natural Science Foundation of China (52372418,62076201), the National Natural Science Foundation Joint Fund Project (U1934222), and the Key Research and Development Plan of Shaanxi Province (2022GY-245).
More Information
    Author Bio:

    Song Xiaogang: born in 1987. PhD, associate professor. His main research interests include autonomous navigation of unmanned aerial vehicles, computer vision, and image processing

    Hu Haoyue: born in 1997. Master. Her main research interests include computer vision, image processing, and depth estimation

    Ning Jingyu: born in 1997. Master candidate. His main research interests include depth estimation and semantic segmentation

    Liang Li: born in 1964. Master, associate professor. Her main research interests include computer vision and image processing, embedded computer control, and intelligent control

    Lu Xiaofeng: born in 1976. PhD, professor. His main research interests include computer vision, intelligent computing, and pattern recognition

    Hei Xinhong: born in 1976. PhD, professor. His main research interests include computer vision and artificial intelligence

  • 摘要:

    研究深度估计和语义分割的图像之间的互利关系,提出了一种联合语义分割的自监督单目深度估计方法USegDepth. 语义分割和深度估计任务通过共享编码器,实现语义引导. 为了进一步提高编码器的跨多任务性能,设计了多任务特征提取模块,堆叠该模块构成共享编码器,解决有限感受野和缺乏跨通道交互导致的模型特征表示能力欠佳问题,进一步提升模型精度. 同时,提出跨任务交互模块,通过双向的跨域信息交互细化特征表示,提升深度估计表现,特别是光度一致性监督有限的弱纹理区域和物体边界. 通过在KITTI数据集上的训练和全面评估,实验结果显示所提的USegDepth模型方法的均方相对误差相比于SGDepth降低了0.176个百分点,在阈值为1.253的阈值精度达到了98.4%,证明了USegDepth在深度预测上具有较高的准确率.

    Abstract:

    In this paper, the mutually beneficial relationship between depth estimation and semantic segmentation is investigated, and a self-supervised monocular depth estimation method for joint semantic segmentation USegDepth is proposed. The shared encoder for semantic segmentation and depth estimation is implemented to achieve semantic guidance. To further improve the across multiple tasks performance of the encoder, a multi-task feature extraction module is designed. The module is stacked to generate the shared encoder, solving the poor feature representation problem of the model due to limited receptive field and lack of cross-channel interaction, and the model accuracy is improved further. And a cross-task interaction module is proposed for bidirectional cross-domain information interaction to refine the depth features, improving depth estimation performance, especially in weak texture regions and object boundaries with limited luminosity consistency supervision. Through training and evaluation on KITTI dataset, the experimental results show that the mean square relative error of USegDepth is reduced by 0.176 percentage points compared with that of SGDepth, and the threshold accuracy reaches 98.4% at a threshold value of 1.253, proving the high accuracy of USegDepth in depth prediction.

  • 深度估计和语义分割作为场景理解的2个重要组成部分,在计算机视觉领域受到了广泛的关注. 近年来,深度卷积神经网络凭借其优异的深度特征表示能力,极大地提高了深度估计和语义分割任务的性能.

    深度估计是计算机视觉中的一个热门研究方向,在3维重建、场景理解、环境感知等任务中起到了关键作用[1]. 许多方法利用不同类型的传感器获得深度信息,包括单目相机[2]、多视角相机[3]和激光雷达[4]. 虽然单目相机价格低廉且应用广泛,但由于其尺度模糊性,也是最具挑战性的. 目前表现较好的单目深度估计方法[5]都依赖于有监督训练,需要大量的深度真值标签用于建立监督信号,而获取深度真值标签成本高昂,并且存在明显噪声. 为了避免这些缺点,一些自监督方法利用无标签立体图像[6]或单目视频帧[7]作为输入,基于光度一致性原理,将光度一致性损失作为监督信号,取得了与监督方法相当的性能. 然而,大部分的自监督深度估计方法主要依赖光度损失和平滑损失作为监督信号,因此,在低纹理区域、反射表面和存在遮挡的区域存在高模糊性,得到了较差的深度估计表现. 为了减少这些病态区域的影响,许多工作都尝试引入来自其他领域的约束,如光流[8]、曲面法线[9]以及语义信息[10]. 光流通过区分相机运动和物体运动,处理深度估计中违反了光度一致性假设的移动物体;而曲面法线可以矫正深度图在平面区域发生的畸变,利用几何关系进行更精确的估计;语义信息则是从语义实例中过滤动态对象或显式地建模对象运动,将其合并到场景几何图形中或者通过正则化相应语义对象内的深度平滑度,加强深度和语义预测之间的一致性.

    本文设计了一个跨任务交互模块(cross tasks interactive module,CTIModule). 通过计算参考特征和目标特征之间的相似性,有效地利用异构表示之间的跨任务交互作用,将深度特征和语义信息之间的关系量化为一种注意形式,细化与语义一致的深度特征,从而产生更好的深度预测. 在特征提取阶段,为了实现语义引导,深度估计和语义分割任务共享同一个编码器,同时,利用提出的多任务特征提取模块(multi-task feature extraction module,MTFEModule)堆叠构建共享编码器,进一步改善因感受野大小和缺乏跨通道交互导致的特征表示能力下降,提升编码器的特征提取能力.

    本文的主要贡献有3个方面:

    1)提出了一种新的联合语义分割任务的自监督单目深度估计方法,其中深度估计任务与语义分割任务共享编码器,为了进一步提高共享编码器的特征表示能力,提出多任务特征提取模块,利用多路径和注意力融合策略,使神经元自适应地根据输入选择感受野大小,提升深度估计表现;

    2)提出跨任务交互模块,充分学习语义的隐式表示,细化与语义一致的深度特征,产生具有语义感知的深度信息,相应地,利用深度特征表示中的场景几何信息进行语义特征增强,最终实现了深度估计和语义分割任务的共同提升;

    3)在KITTI数据集上,基于公用评判标准,进行了全面的性能评估,证明了本文提出的USegDepth模型在自监督单目深度估计中的优秀表现,并利用相应的消融实验证明了所提策略的有效性.

    传统深度估计方法中大多采用多视图图像作为输入,包括使用双目或多目相机获取的图像对以及使用单目相机获取的连续图像帧. 多视角立体视觉和运动恢复结构是2种经典的传统多视图深度估计方法. 但基于传统方法的单目深度估计大都依赖场景中特殊视觉信息,因此对环境要求严格. 并且,所需计算资源大,难以满足实际工业需求.

    随着深度学习的发展,很大程度上弥补了传统算法存在的局限性. 深度学习策略可以分为有监督深度估计方法和无监督深度估计方法.

    有监督深度学习是指使用传感器获得的深度真值建立网络训练的监督信号. Eigen等人[11]利用卷积神经网络实现单目深度估计,提出一个双尺度网络结构,其中细尺度网络将粗尺度网络的全局预测结果与原始输入图片的局部信息结合,丰富局部细节,使场景中的边缘信息更加突出. 相较于传统方法,基于有监督学习的深度估计方法不依赖图像对或连续图像序列之间的特征点提取与匹配,降低了场景限制,并且实现了高质量的深度估计结果. 但是,基于有监督学习的网络模型训练依赖深度真值标签建立监督信号,而深度值标签的获取成本高昂且不易采集,导致其在实际使用中受限.

    无监督深度估计方法在训练模型的过程中无需通过激光雷达等设备获取到真实深度建立监督信号,仅依赖RGB图像学习,极大降低了深度估计任务成本,并且获得了可以与有监督方法相媲美的估计精度. Zhou等人[12]提出了一个基于单目视频流的深度估计框架. 利用深度估计网络预测的深度图和位姿估计网络计算的相对位姿,进行视图重建. 理想状态下,重建视图应与原视图生成一致的光度信息,利用二者之间的光度差异建立光度一致性损失,作为模型训练的主要监督信号.

    目前单目深度估计和语义分割的研究都取得了一定成果,但大多数方法都在强调学习鲁棒的回归,忽略了二者之间的相互作用. 这2个任务之间具有共同的特性,例如,语义分割和深度估计都可以揭示场景布局、对象的形状以及边缘. 联合语义相关任务进行深度估计的方法可以分为3类:语义和深度分支共享权重、混合语义和深度特征以及建模语义与深度之间的统计学关系. Wang等人[13]提出一种联合语义分割训练的深度估计方法,包括一个预测稠密深度图的全局网络和一个计算语义标签的区域估计网络,经过2层条件随机场优化得到细化后的输出. Jafari等人[14]通过量化深度预测图和语义预测图之间的跨膜态影响,提出一种由估计模块和细化模块组成的模块化神经网络. 其中估计模块根据不同的任务,分别构建相应的子网络,2个子网络共同训练,相互促进. Liu等人[15]利用语义分割生成的语义标签,判断像素或区域所属的语义类,引导深度估计. Zhu等人[16]提出利用语义分割的边缘指导深度边缘,有效改善了物体边缘质量. 张玉亮等人[17]构建以超像素为节点的拓扑关系图,有效融合边缘语义信息,提高了提取局部结构信息的能力.

    图1描述了本文提出的USegDepth模型的整体框架. 在整体框架中,一共有3个子任务,包括深度估计、位姿估计以及语义分割,这3个子任务共同训练. 其中位姿估计任务有独立的编码器和解码器,深度估计任务与语义分割任务共享一个编码器,但有各自独立的解码器. 共享编码器利用提出的多任务特征提取模块构建,跨任务交互模块嵌入于深度估计和语义分割的解码器各层之间,实现2个特定任务解码器之间的跨任务交互. 框架的输入为连续视频帧It-1以及It,深度估计与语义分割网络每次以1张视频帧作为输入,经过共享编码器提取特征后,将提取的特征分别送入各自独立的解码器中,深度估计的解码器最终输出1张稠密深度图,语义分割的解码器则生成1张相应的语义分割图. 位姿估计网络将2张相邻帧聚合后作为输入,计算2帧之间的相对位姿,利用计算得到的深度图和位姿进行视图重建,根据光度一致性原理,建立重建视图与目标视图之间的光度损失作为主要的监督信号. 同时,利用语义标签与模型预测生成的语义分割图建立交叉熵损失,通过反向传播提供更多的语义感知表示,优化深度估计网络层. 并且我们还联合了语义引导的三重态损失,利用场景语义的局部几何关系,优化深度图边界,使输出的深度图与语义边界更加对齐.

    图  1  USegDepth整体框架
    Figure  1.  Overall framework of USegDepth

    为了构建一个具有改进特征表示能力的共享编码器,提高编码器跨多任务性能,本文提出了多任务特征提取模块,如图2所示. 其中多任务特征提取模块包括分组特征映射和多分支特征注意力融合2个操作. 首先将每个块的特征映射沿着通道维度划分为多个组和更细粒度的子组,每个子组的分支上采用不同尺度的卷积核提取特征,然后利用注意力融合模块对具有不同尺度卷积核的分支生成的多尺度特征分配不同的权重,其中每个组的特征表示是其子组表示的加权组合. 通过堆叠多任务特征提取模块,构建了深度估计与语义分割的共享编码器.

    图  2  多任务特征提取模块
    Figure  2.  Multi-tasks feature extraction module

    图2(a)描述了一个多任务特征提取模块的整体结构,图2(b)是其中注意力融合模块的具体结构表示. 分组特征操作,采取了多分支特征提取的策略. 将特征分为K个组,同时,在一个特征映射组中将特征再次分组,引入了一个新的超参数r,特征组的总数G = Kr. 本文设置K=2,r=2. 之后是对不同分支的特征进行注意力特征融合. 结合局部特征和全局特征,在注意力模块中对多个分支实现通道交互. 通过对2个不同卷积核大小的网络分支分配不同的注意力,使神经元可以自适应地根据不同输入信息调整其感受野大小. 为了尽可能保持注意力融合模块的轻量级,只是将局部上下文添加到注意力模块内的全局上下文中. 全局通道上下文表示如式(1)所示:

    P(x)=β(PWConv2(δ(β(PWConv1(g(x)))))) (1)
    g(x)=1H×WHi=1Wj=1x[:,i,j].

    其中x表示输入的中间特征,g(x)表示全局平均池化操作,β表示批处理正则化,δ表示ReLU激活函数. 局部通道上下文聚合器选择点向卷积(point-wise convolution,PWConv)实现每个空间位置的点向通道交互. 为了节约参数,通过瓶颈结构计算局部通道上下文{\boldsymbol{L}}\left(x\right)\in {\mathbb{R}}^{C\times H\times W},如式(2)所示:

    {\boldsymbol{L}}\left(x\right)=\beta \left(PWCon{v}_{2}\left(\delta \left(\beta \left(PWCon{v}_{1}\left(x\right)\right)\right)\right)\right) . (2)

    {\boldsymbol{L}}\left( x \right)与输入特征具有相同的形状,它可以保留和突出低级特征中的细节信息. 将全局通道上下文 g\left( x \right) 和局部通道上下文{\boldsymbol{L}}\left( x \right)聚合后,最终得到细化后的特征 {x}' ,如式(3)所示:

    {x}'=x\otimes {\boldsymbol{M}}\left(x\right)=x \otimes \sigma \left({\boldsymbol{L}}\left(x\right)\oplus g\left(x\right)\right) , (3)

    其中,{\boldsymbol{M}}\left(x\right)\in {\mathbb{R}}^{C\times H\times W}为注意力特征融合模块产生的注意力权重,\sigma表示Sigmoid函数, \oplus 代表广播加法, \otimes 为元素级乘法.

    跨任务交互模块的结构如图3所示,该模块位于深度估计解码器和语义分割解码器的每个解码器层之间,利用来自2个解码器之间的特征进行交互信息,产生具有语义感知的深度特征,细化深度预测,同时,也可以利用深度特征中的场景几何信息增强语义特征. 每个跨任务交互模块有2个输入,分别为深度估计的特征图和语义分割的特征图,固定其中一个为参考特征,另一个为目标特征,利用参考特征细化目标特征. 由于跨任务交互模块是单向的数据流,因此,为了实现双向特征增强,每个解码器层之间都同时嵌入2个跨任务交互模块. 以下描述一个跨任务交互模块的具体实现:固定深度估计编码器生成的特征为目标特征、语义分割编码器生成的特征为参考特征. USegDepth框架中,深度解码器与语义分割解码器都由n个解码层组成(其中n=0,1,2,3,4),每层解码器中都包含上采样操作,特征图的空间分辨率会逐层增加1倍,即第n层解码器的深度特征图{{\boldsymbol{F}}}_{\mathrm{d}}^{n}与语义分割特征图{{\boldsymbol{F}}}_{\mathrm{s}}^{n}的空间分辨率为 H/{2}^{4-n} W/{2}^{4-n} ,其中HW为输入图像的高度和宽度.

    图  3  跨任务交互模块结构
    Figure  3.  Cross-task interaction module structure

    跨任务交互模块附加在深度估计和语义分割的每个解码器层之间,首先通过计算2个特征映射{{\boldsymbol{F}}}_{\mathrm{d}}^{n}{{\boldsymbol{F}}}_{\mathrm{s}}^{n}之间的跨任务相似度,作为像素级的注意力得分,使深度特征感知语义信息. 由于任务性质的不同,使用原始特征向量直接计算相似度是不可行的,因此,采用了一个线性投影 \rho ,将原始特征从输入维度C变换为 {C}' . 应用3个独立的线性嵌入,每个嵌入分别作为查询{{\rho}}_{\text{q}}、键{\rho}_{\text{k}}和值{\rho}_{\mathrm{v}}函数. 目标特征映射{{\boldsymbol{F}}}_{\mathrm{d}}^{l}作为键和值嵌入的输入,参考特征映射{{\boldsymbol{F}}}_{\mathrm{s}}^{l}作为查询嵌入的输入. 通过表示子空间间接计算跨任务相似度,细化后的特征的计算方法如式(4)所示:

    {{\boldsymbol{F}}}_{\mathrm{d}}^{n}{\left(i\right)}'=\beta \left(A\left(i\right)\right)\times {\rho }_{\mathrm{v}}\left({{\boldsymbol{F}}}_{\mathrm{d}}^{n}\left(i\right)\right) \text{,} (4)
    A\left(i\right)=\frac{{\rho }_{\mathrm{k}}{\left({{\boldsymbol{F}}}_{\mathrm{d}}^{n}\left(i\right)\right)}^{\mathrm{T}}{\rho }_{\mathrm{q}}\left({{\boldsymbol{F}}}_{\mathrm{s}}^{n}\left(i\right)\right)}{\sqrt{{C}'}},

    其中归一化因子 \beta 用于缩放输入,注意力分数 A\left( i \right) 由相似度量化得到.

    分配与语义具有高度一致的深度特征较大的注意力分数,利用语义信息细化深度特征. 解码器中放置了2个跨任务交互模块,当语义特征作为目标特征时,则深度特征成为参考特征,利用深度特征映射细化语义分割的特征表示.

    受多头注意的启发,采用多重线性投影,通过不同的表示子空间计算特征向量之间的相似性,更有效地从多嵌入中选择性地提取深度特征,最大限度地利用跨空间性. 具体地,使用H个不同的投影函数, {\rho ^h} h = 1,2,···,H),将查询、键和值映射到H个独立的子空间. 式(4)中的跨任务相似性直接扩展到多嵌入方案,如式(5)所示:

    {{\boldsymbol{F}}}_{\mathrm{d}}^{{n}^{h}}{\left(i\right)}'=\beta \left({A}^{h}\left(i\right)\right)\times {\rho }^{h}_{\mathrm{v}}\left({{\boldsymbol{F}}}_{\mathrm{d}}^{n}\left(i\right)\right) , (5)

    其中

    \beta \left({A}^{h}\left(i\right)\right)=\frac{{\mathrm{e}}^{{A}^{h\left(i\right)}}}{\sum\limits _{{h}^{'}\in H}{\mathrm{e}}^{{A}^{{h}^{'}\left(i\right)}}} \text{,}
    {A}^{h}\left(i\right)=\frac{{\rho }_{\mathrm{k}}^{h}{\left({{\boldsymbol{F}}}_{\mathrm{d}}^{n}\left(i\right)\right)}^{\mathrm{T}}{\rho }_{\mathrm{q}}^{h}\left({{\boldsymbol{F}}}_{\mathrm{s}}^{n}\left(i\right)\right)}{\sqrt{{C}'}} .

    细化的总特征映射{{\boldsymbol{F}}}_{\mathrm{d}}^{l}{\left(i\right)}{'}是对每个嵌入函数细化后的特征映射的总和,如式(6)所示:

    {{\boldsymbol{F}}}_{\mathrm{d}}^{l}{\left(i\right)}'=\sum _{h=1}^{H}{{\boldsymbol{F}}}_{\mathrm{d}}^{{n}^{h}}\left(i\right) , (6)

    其中,h表示多重线性嵌入的索引. 采用Softmax作为归一化函数,计算每个嵌入的重要性,然后有选择地利用来自多重注意力的输出.

    随后对细化后的总深度特征映射{{\boldsymbol{F}}}_{\mathrm{d}}^{{l'}}实施通道注意力,分别利用全局最大池化和全局平均池化压缩空间维度,保留通道信息,然后再将多层感知机处理后的特征相加,利用Sigmoid激活函数得到最终的通道注意力权重,对 {\boldsymbol{F}}_{\mathrm{d}}^{{l}'} 再次加权,有选择地关注更有用的通道信息. 具体如式(7)所示:

    \begin{split} {\boldsymbol{F}}_{\mathrm{M}\mathrm{d}}^{{l}'}= & {M}_{\mathrm{c}}\left({\boldsymbol{F}}_{\mathrm{d}}^{{l}'}\right)=\\ & \beta \left(MLP\left(AvgPool\left({\boldsymbol{F}}_{\mathrm{d}}^{{l}'}\right)\right) \text+MLP\left(MaxPool\left({\boldsymbol{F}}_{\mathrm{d}}^{{l}'}\right)\right)\right) . \end{split} (7)

    最后将输入特征图 {\boldsymbol{F}}_{\mathrm{d}}^{n} 与加权后的 {\boldsymbol{F}}_{\mathrm{M}\mathrm{d}}^{{l}'} 进行特征融合. 具体地,先将细化后的特征图 {{\boldsymbol{F}}_{\mathrm{d}}^{l'}} 投影到原始维数C,投影操作用 \gamma 表示,然后将2个特征映射拼接为 \left[\gamma \left({\boldsymbol{F}}_{\mathrm{d}}^{{l}'}\right),{\boldsymbol{F}}_{\mathrm{d}}^{n}\right] ,通过2个卷积层作用于连接的特征映射,完成与初始特征图 {\boldsymbol{F}}_{\mathrm{d}}^{n} 的融合,从而生成 {\boldsymbol{F}}_{\mathrm{d}\mathrm{f}}^{n} {\boldsymbol{F}}_{\mathrm{d}\mathrm{f}}^{n} 作为第n+1层深度解码器的输入.

    深度估计任务和语义分割任务网络采用编码器-解码器架构,这2个任务的编码器共享,采用提出的多功能特征提取模块堆叠构成,遵循残差结构实现跳跃连接,将上层网络信息引入到下层网络,解决深层网络中梯度消失问题.

    解码器采用上采样层和卷积层结合的策略构建,一共包括4个相同的Upconv结构,分别为Upconv 1,Upconv 2,Upconv 3和Upconv 4,每个Upconv中包括特征图融合、多个卷积层和上采样操作. 每个Upconv的输入包括上一层网络的输出和具有相同大小的编码器生成的特征图,将二者融合后进行卷积和上采样操作,最后Upconv4的输出图像尺寸与输入图像尺寸相同. 在解码器中,对输入矩阵扩充时采用反射填充,扩充值使用附近像素值,相较于零填充,可以减少物体边界处的模糊问题,提高特征图清晰度.

    整体采用U-Net架构,在编码器中通过下采样收缩特征分辨率,解码器中对称地通过上采样实现特征分辨率的扩展,并结合下采样各层信息对细节信息还原,更好地提高输出图像精度.

    跨任务交互模块嵌入在深度估计和语义分割网络的第l层解码器之间,其中l = 0,1,2. 采用H = 4的多嵌入方案,原始特征与嵌入特征之间的维度比为2,即 {C}'=2C .

    位姿网络中,同样采用编码器-解码器结构,其中编码器采用ResNet18,因为位姿网络的输入为2张RGB图像在通道维度的拼接,因此,扩展第1个卷积核的输入维度为6通道,解码器中首先使用压缩操作对图像特征进行降维,之后进行多次卷积操作,最后预测出相机位置变化的平移运动和旋转运动.

    光度损失是自监督深度估计的主要监督信号. 利用深度估计网络预测的像素级深度图,以及位姿估计网络计算的6-Dof相对位姿,基于重建原理,实现从输入图像 {I}_{t} {I}_{t-1} 的投影,获得投影后的像素坐标:

    {\hat{I}}_{t}={W}_{t}\left({I}_{t-1},{p}'\right) \text{,} (8)
    {p}'=K{T}_{t\to t-1}{Z}_{t}{K}^{-1}p \text{,}

    其中pIt中像素的齐次坐标, {p}' p经过 {T}_{t\to {t}-1} 的变换坐标. Wt (·)是一个可微双线性采样器[18],在 {I}_{t-1} 中获得 {p}' 附近的像素,然后在 {\hat I_t} 中找到p的线性插值像素. 理想情况下,深度估计网络和位姿估计网络都得到了最佳训练,I_t {\hat I_t} 应该是对齐的. 利用结构相似性指数度量[19]L1损失结合,建立光度一致性损失[3]Lph

    {L}_{\mathrm{p}\mathrm{h}}=\left(1-\alpha \right)\left|{I}_{t}-{\hat{I}}_{t}\right|+\alpha \frac{1-SSIM\left({I}_{t},{\hat{I}}_{t}\right)}{2} . (9)

    添加了边缘感知平滑损失[20]Lsm

    {L}_{\mathrm{s}\mathrm{m}}=\left|{\partial }_{x}{d}_{t}\right|{\mathrm{e}}^{-\left|{\partial }_{x}{I}_{t}\right|}+\left|{\partial }_{y}{d}_{t}\right|{\mathrm{e}}^{-\left|{\partial }_{y}{I}_{t}\right|} . (10)

    由于联合了语义分割任务,因此,在网络训练中添加交叉熵损失. 通过逐个像素对比本文方法中预测的分割图与标签之间的差异得到损失值,具体如式(11)所示. 通过反向传播语义分割的交叉熵损失可以进一步优化深度估计层,提供更多的语义引导.

    {L}_{\mathrm{c}\mathrm{e}}=-\sum\limits_{class}\left({y}_{class}\mathrm{log}\left({p}_{class}\right)\right) \text{,} (11)

    其中class代表类别数, {y}_{class} 为热编码值,且y_{class} \in \{0,1\} {p}_{class} 为网络预测值经过Softmax得到的概率值.

    基于场景语义中的局部几何关系,每个对象实例中的相邻像素具有相似的深度值,而跨语义边界的像素则具有较大的深度差异. 语义引导的三重态损失[21]通过在表示空间中定义和优化距离,为优化深度表示提供了有效的监督信号,使深度解码器在边界区域上产生更多的可鉴别性特征,从而使输出的深度图与语义边界更加对齐. 如式(12)所示:

    {L}_{\mathrm{S}\mathrm{G}\mathrm{T}}=\frac{\sum\limits _{i}\left[\left|{p}_{i}^+\right|,\left|{p}_{i}^-\right| > T\right]{L}_{{p}_{i}}}{\sum\limits_{i}\left[\left|{p}_{i}^+\right|,\left|{p}_{i}^-\right| > T\right]} \text{,} (12)
    {L}_{{p}_{i}}=\mathrm{max}\left(0,{d}^+\left(i\right)+m-{d}^-\left(i\right)\right) \text{,}

    其中 {p}_{i}^{+} {p}_{i}^{-} 是局部补丁 {p}_{i} 中的正、负像素集,i是锚点的空间位置. 使用 {p}_{i}^{+} {p}_{i}^{-} 来确定 {p}_{i} 是否相交于语义边界. 设置了一个阈值T,如果 \left|{p}_{i}^{+}\right| \left|{p}_{i}^{-}\right| 都大于T,则表示 {p}_{i} 与物体之间的边界相交. 减少锚点与正特征之间的距离,并增加锚点与负特征之间的距离. 当区分出带有语义信息的 {p}_{i}^{+} {p}_{i}^{-} 后,将位置同步到预测的深度图中,区分出 {d}^{+} 区域和 {d}^{-} 区域, {d}^{+}\left(i\right) {d}^{-}\left(i\right) 分别是2个区域关于锚点i的深度差异.

    整体训练损失函数为:

    {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}}={L}_{\mathrm{p}\mathrm{h}}+\beta {L}_{\mathrm{s}\mathrm{m}}+\gamma {L}_{\mathrm{c}\mathrm{e}}+\delta {L}_{\mathrm{S}\mathrm{G}\mathrm{T}} \text{,} (13)

    其中 \beta \gamma \delta 为各损失的权重参数.

    训练前调整原始图像分辨率为192×640,设置批处理大小为12.使用Adam优化器,初始学习速率设置为1.5E - 4,共训练20代,经过10代和15代的训练后,学习速率衰减0.1. 遵循之前的工作[22],设置 \alpha =0.85. 平滑损失\beta 、交叉熵损失\gamma 以及三重态损失\delta 的权重参数分别设置为: \beta = 0.001, \gamma = 0.3, \delta = 0.1. 三重态损失的边缘m设置为0.3,阈值T设为4,mT值的设置遵循先前工作[21].

    在KITTI数据集上对模型进行了深度估计测试. 使用Eigen split[22]的分割序列,包括39910张和4424张图像分别用于模型的训练和验证, 697张图像用于模型评估. 为了训练语义分割模型,首先使用一个现有的网络[23]生成伪标签,用于评估与模型预测的语义分割图之间的差异,建立交叉熵损失. 使用与KITTI 2015[24]对应的KITTI语义分割基准训练集提供的200张RGB图像和对应的语义标签评估语义分割性能.

    基于单目深度估计研究中常用的评价指标客观评估本文所提出的模型. 评价指标主要包括错误率和准确率,以下1)~4)为错误率,5)为准确率.

    1) 相对误差(absolute relative error,AbsRel):

    AbsRel=\frac{1}{N}\sum _{i=1}^{N}\frac{\left|{D}_{i}-{D}_{i}^{*}\right|}{{D}_{i}^{*}} . (14)

    2) 均方相对误差(squared relative error,SqRel):

    SqRel=\frac{1}{N}\sum _{i=1}^{N}\frac{{\left|{D}_{i}-{D}_{i}^{*}\right|}^{2}}{{D}_{i}^{*}} . (15)

    3) 均方根误差(root mean square error,RMSE):

    RMS E=\sqrt{\frac{1}{N}\sum _{i=1}^{N}{\left|{D}_{i}-{D}_{i}^{*}\right|}^{2}} . (16)

    4) 对数均方根误差(root mean square logarithmic error,RMSElog):

    RMS Elog=\sqrt{\frac{1}{N}\sum _{i=1}^{N}{\left|\mathrm{log}{D}_{i}-\mathrm{log}{D}_{i}^{*}\right|}^{2}} . (17)

    5) 阈值精度:

    {\delta }_{\tau }=\mathrm{max}\left\{\frac{{D}_{i}}{{D}_{i}^{*}},\frac{{D}_{i}^{*}}{{D}_{i}}\right\} < {\varepsilon }^{\tau } \text{,} (18)

    其中 \varepsilon=1.25 \tau \in \{1,2,3\} , 阈值精度所取得的阈值为1.25,1.252,1.253. 以上5个指标中 {D}_{i} 表示预测的深度值, {D}_{i}^{*} 表示真实的深度值,N表示像素总数.

    表1展示了本文提出的USegDepth模型方法在KITTI数据集上与其他方法的深度估计对比结果,包括联合语义分割任务的方法和单任务训练方法. 对比结果显示USegDepth在每个度量上都优于其他工作. 相较于文献[30]在训练和测试过程中都需要语义信息,本文联合语义分割的多任务网络中,语义信息只用于训练阶段,在测试阶段无需额外的语义处理操作. 与USegDepth的研究类似,SGDepth[31]同样采用深度估计与语义分割共享编码器的方式利用语义信息实现深度估计增强的多任务训练,但仅仅通过共享编码器并不能充分利用语义信息. 因此,在如图4所示的对比方法深度估计结果可视化中,尤其是标注区域,可以看出相较于SGDepth,USegDepth捕获了更多的细粒度信息,特别是在物体边界,恢复出了更清晰的轮廓. 相较于没有联合语义信息,仅包含深度估计网络和位姿估计网络的Monodepth2[3],整体轮廓模糊且细节信息丢失,因此,证明联合语义分割任务可以增强深度估计表现.

    表  1  数据集KITTI上的深度估计对比结果
    Table  1.  Comparison Results of Depth Estimation on KITTI Datasets
    模型方法 语义模块 错误率 准确率
    AbsRel SqRel RMSE RMSElog {\delta }_{1} {\delta }_{2} {\delta }_{3}
    Zhou 等人[7] 0.208 1.768 6.856 0.283 0.678 0.885 0.957
    Zhao 等人[25] 0.146 1.084 5.445 0.221 0.807 0.936 0.976
    Gordon 等人[26] 0.128 0.959 5.230 0.212 0.845 0.947 0.976
    SceneNet [27] 0.118 0.905 5.096 0.211 0.839 0.945 0.977
    Lee 等人[28] 0.112 0.777 4.772 0.191 0.872 0.959 0.982
    Zou 等人[29] 0.115 0.871 4.778 0.191 0.874 0.963 0.984
    Guizilini 等人[30] 0.113 0.831 4.663 0.189 0.878 0.971 0.983
    SGDepth [31] 0.112 0.833 4.688 0.190 0.884 0.961 0.981
    Monodepth2 [3] 0.110 0.831 4.642 0.187 0.883 0.862 0.982
    PackNet-SfM [32] 0.111 0.785 4.601 0.189 0.878 0.960 0.982
    SAFENet [33] 0.112 0.788 4.582 0.187 0.878 0.963 0.983
    HR-Depth [34] 0.109 0.792 4.632 0.185 0.884 0.962 0.983
    VTDepthB2 [35] 0.105 0.762 4.530 0.182 0.893 0.964 0.983
    MonoFormer [36] 0.104 0.846 4.580 0.183 0.891 0.962 0.982
    USegDepth(本文) 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:“√”表示该方法联合了语义信息,黑体值表示最优结果.
    下载: 导出CSV 
    | 显示表格
    图  4  NYU-Depth数据集上的深度估计结果可视化
    Figure  4.  Visualization of depth estimation results on NYU-Depth dataset

    表2评估了每一个策略的有效性,其中Baseline代表设置共享编码器为ResNet50网络,损失函数仅包含光度损失和平滑损失的框架. 首先通过联合语义分割任务,采用共享编码器的方式共同训练,添加交叉熵损失Lce作为监督信号,有效提升模型精度,证明语义信息有益于深度估计性能的提升. 然后,单独引入MTFEModule构建共享编码器,通过细化特征映射,进一步提升深度估计表现,证明了MTFEModule的有效性. 又通过单独引入语义引导的跨任务交互模块CTIModule,赋予深度预测更多的语义感知,进一步改进基线. 最后,所有策略的共同作用显著提升了USegDepth的表现.

    表  2  数据集KITTI上的消融实验结果
    Table  2.  Results of Ablation Experiments on KITTI Datasets
    模型方法 错误率 准确率
    AbsRel SqRel RMSE RMSElog {\delta }_{1} {\delta }_{2} {\delta }_{3}
    Baseline 0.123 0.898 4.873 0.216 0.870 0.959 0.982
    Baseline+Lce 0.119 0.834 4.762 0.192 0.879 0.961 0.983
    Baseline+Lce+MTFEModule 0.108 0.783 4.613 0.189 0.882 0.962 0.983
    Baseline+Lce+CTIModule 0.106 0.754 4.571 0.186 0.885 0.963 0.983
    USegDepth(本文) 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:黑体值表示最优结果.
    下载: 导出CSV 
    | 显示表格

    表3将是否融入CTIModule生成的深度估计结果及语义分割结果对比,证明CTIModule实现了语义分割和深度估计的双向增强. 为了更直观地对比分析,在图5中对深度估计结果进行可视化,其中第1行从KITTI数据集选取RGB样本图,第2行是模型在解码器部分不嵌入CTIModule时得到的深度估计图,第3行是模型在解码器部分嵌入2个CTIModule时得到的深度图. 可以看出,使用了CTIModule的模型恢复出了更清晰的边界以及更多的细节信息,说明该模块可以利用语义信息有效增强深度估计结果.

    表  3  使用/不使用CTIModule在深度估计和语义分割任务上的消融实验结果
    Table  3.  Experimental Results of Ablation with/Without CTIModule on Depth Estimation and Semantic Segmentation Tasks
    模型方法 语义分割 深度估计
    MIoU AbsRel SqRel RMSElog {\delta }_{1} {\delta }_{2} {\delta }_{3}
    USegDepth w/o CTIModule 0.571 0.109 0.788 4.696 0.884 0.963 0.982
    USegDepth(本文) 0.577 0.102 0.657 4.328 0.896 0.968 0.984
    注:MIoU为均交并比. 黑体值表示最优结果.
    下载: 导出CSV 
    | 显示表格
    图  5  使用/不使用CTIModule模块的消融实验可视化
    Figure  5.  Visualization of ablation experiments with/without CTIModule module

    受多头自注意力启发,CTIModule模块中采用多嵌入的形式,表4对嵌入数H的选择进行消融实验,结果表明采用多嵌入形式有效提升了深度估计表现.

    表  4  CTIModule模块嵌入数H的消融实验结果
    Table  4.  Results of Ablation Experiments on Number of Embeddings H for CTIModule Module
    H 错误率 准确率
    AbsRel SqRel RMSE RMSElog {\delta }_{1} {\delta }_{2} {\delta }_{3}
    1 0.107 0.784 4.616 0.184 0.890 0.965 0.983
    2 0.105 0.759 4.571 0.181 0.889 0.966 0.984
    4 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:黑体值表示最优结果.
    下载: 导出CSV 
    | 显示表格

    本文提出了一种联合语义分割的精确单目深度估计方法. 为了充分利用语义信息,深度估计任务与语义分割任务共享编码器,该编码器由多任务特征提取模块堆叠构建,其中采用了分组特征映射和多分支特征注意力融合策略,旨在改善因感受野大小和缺乏跨通道的交互问题导致的特征表示能力下降问题,实现了网络自适应地根据输入选择感受野大小,提高了编码器的特征提取能力从而有效提升了模型精度. 在解码器各层之间嵌入跨任务交互模块,利用来自深度估计特征图与语义分割特征图之间的交互信息,生成丰富的空间细粒度表示,细化特征,实现双向特征增强. 通过在KITTI数据集的广泛评估,证明本文所提的USegDepth模型方法具有较高的估计精度,且相比于其他深度估计方法性能具有一定的提升.

    作者贡献声明:宋霄罡和胡浩越共同负责算法思路和实验方案设计;胡浩越负责完成实验并撰写论文;宁靖宇协助完成部分实验;梁莉、鲁晓锋和黑新宏提出指导意见并修改论文.

  • 图  1   USegDepth整体框架

    Figure  1.   Overall framework of USegDepth

    图  2   多任务特征提取模块

    Figure  2.   Multi-tasks feature extraction module

    图  3   跨任务交互模块结构

    Figure  3.   Cross-task interaction module structure

    图  4   NYU-Depth数据集上的深度估计结果可视化

    Figure  4.   Visualization of depth estimation results on NYU-Depth dataset

    图  5   使用/不使用CTIModule模块的消融实验可视化

    Figure  5.   Visualization of ablation experiments with/without CTIModule module

    表  1   数据集KITTI上的深度估计对比结果

    Table  1   Comparison Results of Depth Estimation on KITTI Datasets

    模型方法 语义模块 错误率 准确率
    AbsRel SqRel RMSE RMSElog {\delta }_{1} {\delta }_{2} {\delta }_{3}
    Zhou 等人[7] 0.208 1.768 6.856 0.283 0.678 0.885 0.957
    Zhao 等人[25] 0.146 1.084 5.445 0.221 0.807 0.936 0.976
    Gordon 等人[26] 0.128 0.959 5.230 0.212 0.845 0.947 0.976
    SceneNet [27] 0.118 0.905 5.096 0.211 0.839 0.945 0.977
    Lee 等人[28] 0.112 0.777 4.772 0.191 0.872 0.959 0.982
    Zou 等人[29] 0.115 0.871 4.778 0.191 0.874 0.963 0.984
    Guizilini 等人[30] 0.113 0.831 4.663 0.189 0.878 0.971 0.983
    SGDepth [31] 0.112 0.833 4.688 0.190 0.884 0.961 0.981
    Monodepth2 [3] 0.110 0.831 4.642 0.187 0.883 0.862 0.982
    PackNet-SfM [32] 0.111 0.785 4.601 0.189 0.878 0.960 0.982
    SAFENet [33] 0.112 0.788 4.582 0.187 0.878 0.963 0.983
    HR-Depth [34] 0.109 0.792 4.632 0.185 0.884 0.962 0.983
    VTDepthB2 [35] 0.105 0.762 4.530 0.182 0.893 0.964 0.983
    MonoFormer [36] 0.104 0.846 4.580 0.183 0.891 0.962 0.982
    USegDepth(本文) 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:“√”表示该方法联合了语义信息,黑体值表示最优结果.
    下载: 导出CSV

    表  2   数据集KITTI上的消融实验结果

    Table  2   Results of Ablation Experiments on KITTI Datasets

    模型方法 错误率 准确率
    AbsRel SqRel RMSE RMSElog {\delta }_{1} {\delta }_{2} {\delta }_{3}
    Baseline 0.123 0.898 4.873 0.216 0.870 0.959 0.982
    Baseline+Lce 0.119 0.834 4.762 0.192 0.879 0.961 0.983
    Baseline+Lce+MTFEModule 0.108 0.783 4.613 0.189 0.882 0.962 0.983
    Baseline+Lce+CTIModule 0.106 0.754 4.571 0.186 0.885 0.963 0.983
    USegDepth(本文) 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:黑体值表示最优结果.
    下载: 导出CSV

    表  3   使用/不使用CTIModule在深度估计和语义分割任务上的消融实验结果

    Table  3   Experimental Results of Ablation with/Without CTIModule on Depth Estimation and Semantic Segmentation Tasks

    模型方法 语义分割 深度估计
    MIoU AbsRel SqRel RMSElog {\delta }_{1} {\delta }_{2} {\delta }_{3}
    USegDepth w/o CTIModule 0.571 0.109 0.788 4.696 0.884 0.963 0.982
    USegDepth(本文) 0.577 0.102 0.657 4.328 0.896 0.968 0.984
    注:MIoU为均交并比. 黑体值表示最优结果.
    下载: 导出CSV

    表  4   CTIModule模块嵌入数H的消融实验结果

    Table  4   Results of Ablation Experiments on Number of Embeddings H for CTIModule Module

    H 错误率 准确率
    AbsRel SqRel RMSE RMSElog {\delta }_{1} {\delta }_{2} {\delta }_{3}
    1 0.107 0.784 4.616 0.184 0.890 0.965 0.983
    2 0.105 0.759 4.571 0.181 0.889 0.966 0.984
    4 0.102 0.657 4.328 0.175 0.896 0.968 0.984
    注:黑体值表示最优结果.
    下载: 导出CSV
  • [1] 江俊君,李震宇,刘贤明. 基于深度学习的单目深度估计方法综述[J]. 计算机学报,2022,45(6):1276−1307 doi: 10.11897/SP.J.1016.2022.01276

    Jiang Junjun, Li Zhenyu, Liu Xianming. Overview of monocular depth estimation methods based on deep learning[J]. Chinese Journal of Computers, 2022, 45(6): 1276−1307(in Chinese) doi: 10.11897/SP.J.1016.2022.01276

    [2]

    Cheng Xinjing, Wang Peng, Yang Ruigang. Learning depth with convolutional spatial propagation network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(10): 2361−2379

    [3]

    Godard C, Aodha O M, Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]//Proc of the 35th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2017: 6602–6611

    [4]

    Imran S, Long Yunfei, Liu Xiaoming, et al. Depth coefficients for depth completion[C]//Proc of the 37th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2019: 12438–12447

    [5]

    Guo Xiaoyang, Li Hongsheng, Yi Shuai, et al. Learning monocular depth by distilling cross-domain stereo networks[C]//Proc of the 15th European Conf on Computer Vision (ECCV). Berlin: Springer, 2018: 484–500

    [6]

    Luo Yue, Ren J, Lin M, et al. Single view stereo matching[C]//Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2018: 155–163

    [7]

    Shu Chang, Yu Kun, Duan Zhixiang, et al. Feature-metric loss for self-supervised learning of depth and egomotion[C]//Proc of the 16th European Conf on Computer Vision (ECCV). Berlin: Springer, 2020: 572−588

    [8]

    Yin Zhichao, Shi Jianping. GeoNet: Unsupervised learning of dense depth, optical flow and camera pose[C]// Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2018: 1983–1992

    [9]

    Qi Xiaojun, Liao Renjie, Liu Zhengzhe, et al. GeoNet: Geometric neural network for joint depth and surface normal estimation[C]//Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2018: 283–291

    [10]

    Saha S, Obukhov A, Paudel P D, et al. Learning to relate depth and semantics for unsupervised domain adaptation [C]//Proc of the 39th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2021: 8193−8203

    [11]

    Eigen D, Puhrsch C, Fergus R. Depth map prediction from a single image using a multi-scale deep network[C]//Proc of the 28th Conf and Workshop on Neural Information Processing System (NIPS). Cambridge, MA: MIT, 2014: 2366–2374

    [12]

    Zhou Tinghui, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[C]//Proc of the 35th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2017: 6612–6619

    [13]

    Wang Peng, Shen Xiaohui, Lin Zhe, et al. Towards united depth and semantic prediction from a single image[C]//Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2015: 2800–2809

    [14]

    Jafari O H, Groth O, Kirillov A, et al. Analyzing modular CNN a rchitectures for joint depth prediction and semantic segmentation[C]//Proc of the 34th IEEE Int Conf on Robotics and Automation (ICRA). Piscataway, NJ: IEEE, 2017: 4620–4627

    [15]

    Liu Beyang, Gould S, Koller D. Single image depth estimation from predicted semantic labels[C]//Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2010: 1253–1260

    [16]

    Zhu Shenjie, Brazil G, Liu Xiaoming. The edge of depth: Explicit constraints between segmentation and depth[C]//Proc of the 38th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2020: 13116–13125

    [17] 张玉亮,赵智龙,付炜平,等. 融合边缘语义信息的单目深度估计[J]. 科学技术与工程,2022,22(7):2761−2769 doi: 10.3969/j.issn.1671-1815.2022.07.028

    Zhang Yuliang, Zhao Zhilong, Fu Weiping, et al. Monocular depth estimation based on edge Semantic information[J]. Science Technology and Engineering, 2022, 22(7): 2761−2769(in Chinese) doi: 10.3969/j.issn.1671-1815.2022.07.028

    [18]

    Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Proc of the 29th Neural Information Processing Systems (NIPS). Cambridge, MA: MIT, 2015: 2017–2025

    [19]

    Wang Zhou, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600−612 doi: 10.1109/TIP.2003.819861

    [20]

    Park K, Patten T, Vincze M. Pix2pose: Pixel-wise coordinate regression of objects for 6d pose estimation[C]//Proc of the 17th IEEE Int Conf on Computer Vision (ICCV). Los Alamitos, CA: IEEE Computer Society, 2019: 7668–7677

    [21]

    Jung H, Park E, Yoo S. Fine-grained semantics-aware representation enhancement for self-supervised monocular depth estimation[C]//Proc of the 18th IEEE Int Conf on Computer Vision (ICCV). Los Alamitos, CA: IEEE Computer Society, 2021: 12642–12652

    [22]

    Godard C, Aodha O M, Firman M , et al. Digging into self-supervised monocular depth estimation[C]//Proc of the 17th IEEE Int Conf on Computer Vision (ICCV). Los Alamitos, CA: IEEE Computer Society, 2019: 3827−3837

    [23]

    Zhu Yi, Sapra K, Reda F A, et al. Improving semantic segmentation via video propagation and label relaxation[C]//Proc of the 37th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2019: 8856–8865

    [24]

    Menze M, Geiger A. Object scene flow for autonomous vehicles[C]//Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2015: 3061–3070

    [25]

    Zhao Chaoqiang, Gary G Y, Sun Qiyu, et al. Masked GAN for unsupervised depth and pose prediction with scale consistency[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(12): 5392−5403 doi: 10.1109/TNNLS.2020.3044181

    [26]

    Gordon A, Li H, Jonschkowski R, et al. Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras[C]//Proc of the 17th IEEE/CVF Int Conf on Computer Vision (ICCV). Los Alamitos, CA: IEEE Computer Society, 2019: 8976–8985

    [27]

    Chen P Y, Liu A H, Liu Yencheng. et al. Towards scene understanding: Unsupervised monocular depth estimation with semantic-aware representation[C]//Proc of the 37th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2019: 2619–2627

    [28]

    Lee S, Im S, Lin S, et al. Learning monocular depth in dynamic scenes via instance-aware projection consistency[C] //Proc of the 35th AAAI Conf on Artificial Intelligence (AAAI). Palo Alto, CA: AAAI, 2021: 1863–1872

    [29]

    Zou Yuliang, Ji Pan, Tran Q H, et al. Learning monocular visual odometry via self-supervised long-term modeling[C]//Proc of the 16th European Conf on Computer Vision (ECCV). Berlin: Springer, 2020: 710–727

    [30]

    Guizilini V, Hou Rui, Li Jie, et al. Semantically-guided representation learning for self-supervised monocular depth[C/OL]//Proc of the 8th Int Conf on Learning Representations (ICLR). Washington: ICLR, 2020[2023-12-26]. https://iclr.cc/virtual_2020/poster_ByxT7TNFvH.html

    [31]

    Klingner M, Termöhlen J A, Mikolajczyk J, et al. Self-supervised monocular depth estimation: Solving the dynamic object problem by semantic guidance[C]//Proc of the 16th European Conf on Computer Vision (ECCV). Berlin: Springer, 2020: 582–600

    [32]

    Guizilini V, Ambrus R, Pillai S, et al. 3D packing for self-supervised monocular depth estimation[C]//Proc of the 38th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Los Alamitos, CA: IEEE Computer Society, 2020: 2485−2494

    [33]

    Choi J, Jung D, Lee D, et al. SaFENet: Self-supervised monocular depth estimation with semantic-aware feature extraction[J]. arXiv preprint, arXiv: 2010.02893, 2020

    [34]

    Lyu Xiaoyang, Liu Liang, Wang Mengmeng, et al. HR-Depth: High resolution self-supervised monocular depth estimation[C]//Proc of the 35th AAAI Conf on Artificial Intelligence (AAAI). Palo Alto, CA: AAAI, 2021: 2294–2301

    [35]

    Karpov A, Makarov I. Exploring efficiency of vision transformers for self-supervised monocular depth estimation[C]//Proc of the 25th IEEE Int Symp on Mixed and Augmented Reality (ISMAR). Piscataway, NJ: IEEE, 2022: 711–719

    [36]

    Bae J, Moon S, Im S. Deep digging into the generalization of self-supervised monocular depth estimation[C]//Proc of the 36th AAAI Conf on Artificial Intelligence (AAAI). Palo Alto, CA: AAAI, 2022: 187–196

  • 期刊类型引用(0)

    其他类型引用(4)

图(5)  /  表(4)
计量
  • 文章访问数:  217
  • HTML全文浏览量:  52
  • PDF下载量:  79
  • 被引次数: 4
出版历程
  • 收稿日期:  2023-06-11
  • 修回日期:  2024-01-02
  • 录用日期:  2024-03-05
  • 网络出版日期:  2024-03-06
  • 刊出日期:  2024-05-13

目录

/

返回文章
返回