Processing math: 6%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于三维点云的卷积运算综述

韩冰, 张鑫云, 任爽

韩冰, 张鑫云, 任爽. 基于三维点云的卷积运算综述[J]. 计算机研究与发展, 2023, 60(4): 873-902. DOI: 10.7544/issn1000-1239.202220135
引用本文: 韩冰, 张鑫云, 任爽. 基于三维点云的卷积运算综述[J]. 计算机研究与发展, 2023, 60(4): 873-902. DOI: 10.7544/issn1000-1239.202220135
Han Bing, Zhang Xinyun, Ren Shuang. Survey of Convolution Operations Based on 3D Point Clouds[J]. Journal of Computer Research and Development, 2023, 60(4): 873-902. DOI: 10.7544/issn1000-1239.202220135
Citation: Han Bing, Zhang Xinyun, Ren Shuang. Survey of Convolution Operations Based on 3D Point Clouds[J]. Journal of Computer Research and Development, 2023, 60(4): 873-902. DOI: 10.7544/issn1000-1239.202220135
韩冰, 张鑫云, 任爽. 基于三维点云的卷积运算综述[J]. 计算机研究与发展, 2023, 60(4): 873-902. CSTR: 32373.14.issn1000-1239.202220135
引用本文: 韩冰, 张鑫云, 任爽. 基于三维点云的卷积运算综述[J]. 计算机研究与发展, 2023, 60(4): 873-902. CSTR: 32373.14.issn1000-1239.202220135
Han Bing, Zhang Xinyun, Ren Shuang. Survey of Convolution Operations Based on 3D Point Clouds[J]. Journal of Computer Research and Development, 2023, 60(4): 873-902. CSTR: 32373.14.issn1000-1239.202220135
Citation: Han Bing, Zhang Xinyun, Ren Shuang. Survey of Convolution Operations Based on 3D Point Clouds[J]. Journal of Computer Research and Development, 2023, 60(4): 873-902. CSTR: 32373.14.issn1000-1239.202220135

基于三维点云的卷积运算综述

基金项目: 国家自然科学基金项目(62072025)
详细信息
    作者简介:

    韩冰: 1995年生. 博士. CCF学生会员. 主要研究方向为机器学习、3D计算机视觉

    张鑫云: 1997年生. 博士. CCF学生会员. 主要研究方向为机器学习、3D计算机视觉

    任爽: 1981年生. 博士,副教授,博士生导师. CCF会员. 主要研究方向为机器学习、计算机视觉、虚拟现实技术

    通讯作者:

    任爽 (sren@bjtu.edu.cn)

  • 中图分类号: TP18

Survey of Convolution Operations Based on 3D Point Clouds

Funds: This work was supported by the National Natural Science Foundation of China (62072025)
More Information
    Author Bio:

    Han Bing: born in 1995. PhD. Student member of CCF. Her main research interests include machine learning and 3D computer vision

    Zhang Xinyun: born in 1997. PhD. Student member of CCF. His main research interests include machine learning and 3D computer vision

    Ren Shuang: born in 1981. PhD, associate professor, PhD supervisor. Member of CCF. His main research interests include machine learning, computer vision, and virtual reality technology. (sren@bjtu.edu.cn)

  • 摘要:

    随着深度相机、激光雷达等3D扫描设备的普及,用点云表示3D数据的方法越来越流行,对点云数据的分析与处理也引起了视觉研究领域的极大兴趣. 一般来说,由于分布在3D几何空间中的点云是无序的,可以形成特定的结构,因此学习到的特征表示应该具备排列不变性、旋转和平移不变性、形状区分性. 近年来,越来越多的研究人员基于点云的这些特性采用深度学习这一人工智能领域中的主流技术来处理分析点云数据. 其中,卷积神经网络使用的卷积运算具备权重共享、局部聚合和变换不变等优点,减少了训练参数的个数,并具有较强的鲁棒性,可以有效地降低网络复杂度并提升网络性能,因此在各种2D视觉问题(如图像、视频)上的研究及应用已经相对成熟,这也引起了研究人员的高度关注并尝试将其引入到点云处理任务中. 但传统的标准卷积运算往往无法直接作用于点云这种不规则数据上,一些研究人员进而对卷积运算及其卷积算子展开了深入的探索,并提出了多种卷积策略和网络以提高计算效率和算法性能. 为了促进之后的研究,首先对现有点云研究中所使用的卷积方法进行了概述,包括基于投影的方法、基于体素的方法、基于晶格的方法、基于图的方法和基于点的方法. 之后着重针对直接处理3D点云的卷积算子和网络的最新进展进行了全面的综述,主要分为离散卷积和连续卷积,此外还对使用不同卷积算子的网络在处理点云的分类和分割等任务上的性能进行了全面地分析与对比. 最后针对现存的问题与面临的挑战进行了进一步分析,并探索了未来可能的研究方向,希望为点云未来更深入的研究提供新思路.

    Abstract:

    With the popularity of three-dimensional (3D) scanning devices, like the depth cameras and LiDARs, using point clouds to represent 3D data becomes ubiquitous. Compared with two-dimensional (2D) images, point clouds can provide richer information and capture more 3D structures. Therefore, point cloud learning has recently attracted a surge of research interests in computer vision community and promoted various emerging applications, such as robotic manipulation, autonomous driving and augmented reality. Generally, the learned representations of point clouds should have the characteristics of permutation invariant, transformation invariant (e.g., rotation and translation) and shape distinguishability. Therefore, in recent years, more and more researchers have carried out research on using deep learning (DL) to deal with point clouds. Among them, the convolution operations in convolutional neural networks (CNNs) have the characteristics of weight sharing, local aggregation and transformation invariance, which can effectively reduce the complexity of the networks and the number of training parameters. Meanwhile, CNNs have been successfully used to solve various 2D vision problems of images and videos with strong robustness. Therefore, CNNs attract great attention of researchers and are introduced into some point cloud tasks. However, the traditional standard convolution operations cannot directly act on the irregular data such as point clouds. Therefore, some researchers carry out in-depth explorations on the convolution operations and then propose a variety of convolutional strategies and networks to improve the computational efficiency and algorithm performance. To stimulate future research, we first summarize convolutional methods used in existing point cloud research, including projection-based methods, voxel-based methods, lattice-based methods, graph-based methods and point-based methods. After that, we focus on the recent progress in convolution operators and networks based on point clouds mainly including discrete convolutions and continuous convolutions. In addition, the performances of networks using various point-based convolution operators in some related tasks (such as classification and segmentation) are comprehensively analyzed. Then we quantitatively compare these methods on some synthetic datasets and real-scanned datasets, and obtain relative state-of-the-art (SOTA) methods of each point cloud task. Extensive experiments can verify the performances as well as the effectiveness of these proposed methods. Finally, aiming at some existing problems and challenges, we also present insightful observations together with inspiring future research directions.

  • 图像融合旨在从不同传感器或不同拍摄设置捕获的图像中提取最有意义的信息,并将这些信息融合生成单幅信息更完备、对后续应用更有利的图像[1-3]. 红外与可见光图像融合是应用最为广泛的图像融合任务之一. 具体来说,红外传感器对成像环境较鲁棒,所捕获的红外图像具有显著的对比度,能有效地将热目标与背景区分开. 然而,红外图像往往缺乏纹理细节,不符合人类的视觉感知习惯. 相反,可见光图像往往包含丰富的纹理细节,但容易受天气、光照等因素影响,且无法有效突出目标. 红外与可见光图像融合致力于同时保留这2种模态的优异特性,以生成既具有显著对比度又包含丰富纹理细节的图像. 由于融合图像的优良特性,红外与可见光图像融合已被广泛应用于军事探测、目标监控以及车辆夜间辅助驾驶等领域[4-5].

    现存的红外与可见光图像融合方法根据其原理可分为传统方法和基于深度学习的方法. 传统方法通常利用相关的数学变换在空间域或变换域进行活动水平测量,并设计相应的融合规则来实现图像融合[6]. 代表性方法有:基于多尺度变换的方法[7-8]、基于稀疏表示的方法[9]、基于子空间的方法[10]、基于显著性的方法[11]以及混合方法[12]. 一般来说,这些传统方法手工设计的活动水平测量及融合规则具有较大的局限性:一方面,源图像的多样性势必会使这些手工设计越来越复杂;另一方面,这也限制了融合性能的进一步提升,因为不可能以手工设计的方式考虑所有因素.

    近年来,深度学习的快速发展推动了图像融合领域的巨大进步. 基于深度学习的融合方法凭借神经网络强大的特征提取和图像重建能力,不断提升融合性能[13]. 根据图像融合的实现过程,现存的基于深度学习的图像融合方法可以分为端到端融合方法和非端到端融合方法. 端到端融合方法[14-17]通常在损失函数的引导下隐式地实现特征提取、特征融合及图像重建,其损失函数被定义为图像空间中融合图像与源图像绝对分布(如像素强度、梯度等原始图像属性)之间的距离,如图1所示. 在这一类方法中,图像融合网络的优化实际上是寻求红外与可见光图像绝对分布的中和比例,这势必会造成有益信息被削弱,如纹理结构和热目标被中和.

    图  1  端到端融合方法示意图
    Figure  1.  Schematic of the end-to-end fusion method

    非端到端融合方法一般基于自编码网络,其先用编码器实现特征提取,然后使用融合策略聚合提取到的特征,最后使用译码器对融合特征进行译码实现图像重建. 然而,在现存非端到端图像融合方法中,所采用的中间特征融合策略仍然是传统的[18],如Mean策略、Max策略以及Addition策略等,如图2所示. 这些融合策略是全局的,不能根据输入图像来自适应地调整,融合性能十分有限. 比如,Mean策略对输入特征直接取平均,会造成显著目标的亮度被中和;Addition策略直接将输入特征相加,会造成部分区域亮度中和或饱和.

    图  2  非端到端融合方法示意图
    Figure  2.  Schematic of the non-end-to-end fusion method

    为了解决上述挑战,本文提出一个基于特征空间多类别对抗机制的红外与可见光图像融合网络,显著提升了融合性能. 首先,该方法基于自编码网络,利用编码器网络和译码器网络显式地实现特征提取和图像重建. 其中,编码器网络引入了空间注意力机制来关注更重要的区域,如显著目标区和丰富纹理区;译码器网络引入通道注意力机制来筛选对重建图像本身更有利的通道特征,如高频特征通道和包含了显著性目标的低频特征通道. 此外,译码器网络还采用了多尺度卷积,其可以从不同尺度处理特征,从而在重建过程中更好地保留细微纹理. 然后,采用生成式对抗网络(generative adversarial network, GAN)实现中间特征融合策略的可学习化. 具体来说,本文设计了一个特征融合网络作为生成器来融合由训练好的编码器提取的特征,其致力于生成同时符合红外和可见光2种模态概率分布的融合特征. 提出一个多分类器鉴别器,其致力于区分红外特征、可见光特征以及融合特征. 特征融合网络和多分类器鉴别器持续地进行多分类对抗学习,直到多分类器鉴别器认为融合特征既是可见光特征,又是红外特征. 此时,特征融合网络便能保留红外图像和可见光图像中最显著的特性,从而生成高质量的融合特征. 最终的融合图像由训练好的译码器网络对融合特征译码得到. 值得注意的是,所提方法采用的多分类对抗机制区别于传统GAN[19]的二分类对抗,其更符合图像融合任务的多源信息拟合需求. 与当前基于GAN的图像域对抗融合方法[16]也不同,所提方法首次将生成对抗机制引入特征空间,对技术路线中的“特征融合”环节更具针对性. 更重要的是所提方法摆脱了当前几乎所有的基于GAN的融合方法都需要的距离(内容)损失,仅在GAN分类决策所捕获的模态概率分布(如对比度、纹理等模态属性)之间构建损失,有效地避免了有益信息的削弱,从而实现显著热目标和丰富纹理结构的自适应保留.

    所提方法有两大优势:1)相较于现存端到端的融合方法,本文方法没有使用融合图像与源图像绝对分布之间的距离作为损失函数,而是在分类决策捕获的模态概率分布之间建立对抗损失,从而避免有益信息被削弱. 2)相较于现存非端到端的融合方法,所提方法将中间特征融合策略可学习化,能够根据输入图像自适应地调整融合规则,较好地保留了源图像中的显著对比度和丰富纹理细节. 这种智能融合策略可以避免传统融合策略造成的亮度中和或饱和以及信息丢失等问题. 为了直观展示所提方法的优势,选取了代表性的端到端融合方法U2Fusion[15]和非端到端融合方法DenseFuse[18]来对比显示,其中DenseFuse按照原始论文建议选取了性能相对较好的Addition策略,融合结果的差异如图3所示. 可以看出,U2Fusion的融合结果中出现了典型的亮度中和现象,目标建筑物的亮度没有被保持,纹理结构也很不自然. DenseFuse使用Addition融合策略,虽然能较好地维持纹理结构的显著性,但目标建筑物的亮度依旧被削弱. 相比之下,本文方法能显著地改善这些问题,融合结果不但准确地保持了目标建筑物的亮度,而且包含丰富的纹理细节. 这得益于所提方法中特征融合网络的优异性能,其能自适应地保留红外与可见光的模态特性.

    图  3  融合性能对比
    Figure  3.  Comparison of fusion performance

    本文的主要贡献有3个方面:1)提出了一个新的红外与可见光图像融合网络,其利用多分类对抗机制将传统融合策略扩展为可学习,具有更好的融合性能. 2)所提模型将现存方法中融合图像与源图像绝对分布之间的距离损失扩展为模态概率分布之间的对抗损失,有效避免了现存融合方法中有益信息被削弱的问题. 3)本文方法具有良好的泛化性,可以推广到任意红外与可见光图像融合数据集.

    本节回顾和所提方法最相关的技术和工作,包括基于深度学习的融合方法及GAN.

    近几十年,基于深度学习的融合方法凭借神经网络强大的特征提取和图像重建能力,获得了远超传统方法的性能[20]. 现存的基于深度学习的图像融合方法可以分为端到端融合方法以及非端到端融合方法.

    端到端融合方法通常直接使用一个整体网络将输入的红外和可见光图像进行融合. 换句话说,融合的各个阶段如特征提取、特征融合以及图像重建都是隐式的. 端到端融合方法可根据所采取的架构分为基于卷积神经网络的融合方法[21-22]和基于GAN的融合方法[23-25]. 这些方法的共性在于依赖融合图像与源图像绝对分布之间的距离损失. 例如,PMGI[14]在融合图像和2幅源图像间建立强度和梯度距离损失,并通过调节损失项的权重系数来调整信息融合过程中的保留比例,从而控制融合结果绝对分布的倾向性. U2Fusion[15]则在融合图像和2幅源图像间建立强度和结构相似度损失[26],并通过度量特征图的信息质量来自适应地调整损失项系数,从而引导融合图像保留有效信息. 不幸的是,这种融合图像与2幅源图像绝对分布之间的距离损失会建立一个博弈,导致最终融合图像是2幅源图像原始属性(如像素强度、梯度)的折中,不可避免地造成有益信息被削弱. 除此以外,武汉大学的Ma等人[16]将GAN架构引入到图像融合领域并提出了引起广泛关注的FusionGAN,其中网络的优化不仅依赖图像绝对分布之间的距离损失,还依赖模态概率分布之间的对抗损失. 随后,文献[16]的作者引入双鉴别器来平衡红外与可见光信息以进一步提升融合性能[17],但是网络优化仍离不开图像绝对分布之间的内容损失,这意味有益信息的丢失问题仍然存在.

    非端到端融合方法主要是基于自编码架构[27],其特征提取、特征融合以及图像重建3个阶段都是非常明确的,由不同的网络或模块来实现. 现存非端到端图像融合方法的融合质量一直受融合策略的性能制约. 具体来说,现存的基于自编码结构的融合方法采用的融合规则都是手工制作的,且不可学习. 例如,DenseFuse[18]采用Addition策略和l1-norm策略;SEDRFuse[28]采用最大值策略. 这些策略不能根据输入图像自适应地调整,可能会造成亮度中和或过饱和、信息丢失等问题,因此,研究可学习的融合规则非常有意义.

    原始GAN由Goodfellow等人[19]于2014年提出,其由一个生成器和一个鉴别器组成. 生成器是目标网络,致力于生成符合目标分布的伪数据;鉴别器是一个分类器,其负责准确分辨出真实数据和生成器伪造的假数据. 因此,生成器和鉴别器之间是敌对关系. 也就是说,生成器希望生成鉴别器无法区分的伪数据,而鉴别器则希望能准确鉴别出伪数据. 生成器和鉴别器不断迭代地优化,直到鉴别器无法区分是真实数据还是由生成器产生的伪数据. 此时,生成器便具备生成符合目标分布数据的能力. 下面,我们形式化上述对抗学习过程.

    假设生成器被表示为G,鉴别器被表示为D,输入到生成器的随机数据为Z={z1,z2,,zn}Pz,目标数据为X={x1,x2,,,xn}PX. 那么,生成器致力于估计目标数据X的分布PX,并尽可能生成符合该分布的数据G(Z),而鉴别器D需要对真实数据X和生成的伪数据G(Z)进行准确区分. 总而言之,GAN的目的就是在不断地对抗训练中使得伪数据的分布PG不断逼近目标数据分布PX. 因此,GAN的目标函数被定义为

    min (1)

    随着研究的深入,研究者发现使用交叉熵损失的原始GAN在训练过程中非常不稳定,且生成结果质量不高. 最小二乘GAN[29]的提出改善了这一现象,其使用最小二乘损失作为损失函数,引入标签来引导生成器和鉴别器的优化. 最小二乘GAN的目标函数被定义为

    \begin{split} &\min\limits _{D} {V}_{\mathrm{L}\mathrm{S}\mathrm{G}\mathrm{A}\mathrm{N}}\left(D\right)=\frac{1}{2}{E}_{{x}_{i}\sim{P}_{X}}\left[D\left({x}_{i}\right)-{r}^{2}\right] +\\ &\frac{1}{2}{E}_{{z}_{i}\sim{P}_{Z}}\left[D\left(G\left({z}_{i}\right)\right)-{s}^{2}\right], \end{split} (2)
    \begin{aligned}\min\limits _{G} {V}_{\mathrm{L}\mathrm{S}\mathrm{G}\mathrm{A}\mathrm{N}}\left(G\right)=\frac{1}{2}{E}_{{z}_{i}\sim{P}_{Z}}\left[D\left(G\left({z}_{i}\right)\right)-{t}^{2}\right],\end{aligned} (3)

    其中r, s, t是对应的概率标签. 具体来说,r是鉴别器判定目标数据集合X中数据 {x}_{i} 对应的标签,设定r = 1;s是鉴别器判定由生成器构造的伪数据G {z}_{i} )对应的标签,设定s = 0;t是生成器希望鉴别器判定伪数据G {z}_{i} )对应的标签,设定t = 1.

    本节详细描述提出的基于特征空间多分类对抗机制的红外与可见光图像融合网络. 首先,我们给出问题建模,然后介绍网络详细结构,最后提供损失函数的具体设计.

    从定义上来说,图像融合是从源图像中提取最有意义的特征,将它们融合并重建包含更丰富信息的单幅图像. 因此,图像融合的整个过程可以分为3个阶段:特征提取、特征融合以及图像重建. 基于上述思想,本文提出一个基于特征空间多分类对抗机制的红外与可见光图像融合网络,其总体框架如图4所示.

    图  4  本文方法的总体框架图
    Figure  4.  Overall framework of the proposed method

    首先,鉴于自编码器网络的“低维—高维—低维”映射理念非常契合特征提取和图像重建这2个环节,所提方法提出一个引入注意力机制的自编码器网络来实现特征提取和图像重建. 其中,编码器网络 {E}_{\mathrm{I}} 中的空间注意力机制能使得低维向高维映射时更关注那些包含重要信息的区域,如包含丰富纹理或显著热目标的区域;而译码器网络 {D}_{\mathrm{I}} 中的通道注意力机制则使得高维向低维映射时更关注对重建图像更有利的通道特征,如高频特征通道和包含显著目标的低频特征通道. 除此以外,译码器网络 {D}_{\mathrm{I}} 还引入了多尺度卷积来加强对细微空间纹理的保留.

    其次,使用训练好的编码器网络 {E}_{\mathrm{I}} 从红外和可见光图像中提取特征,并设计一个特征融合网络F来融合这些特征,这种可学习的特征融合策略比现存方法所使用的传统融合策略具有更强的性能. 具体来说,所提的特征融合网络F被当作生成器,然后结合使用1个多分类鉴别器MD,二者构成特征空间上的生成式对抗网络. 特征融合网络F致力于同时估计红外与可见光2种模态特征概率分布,以生成同时符合这2种模态概率分布的融合特征;而多分类鉴别器MD则致力于准确区分可见光特征、红外特征以及特征融合网络生成的融合特征. 经过持续的对抗学习,直到多分类鉴别器认为融合特征既是红外特征又是可见光特征,此时该融合特征便具备了红外和可见光2种模态中最显著的特性. 值得注意的是,所提模型中生成式对抗网络的优化仅依赖于模态概率分布之间的对抗损失,不依赖绝对分布之间的距离损失,这极大地避免了现存方法中存在的有益信息被削弱问题. 最终,将特征融合网络F生成的融合特征经训练好的译码器网络 {D}_{\mathrm{I}} 译码得到高质量的融合图像 {\boldsymbol{I}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 整个融合过程可以被形式化为

    \begin{array}{c}{\boldsymbol{I}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}={D}_{\mathrm{I}}\left(F\left({E}_{\mathrm{I}}\left({\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right),{E}_{\mathrm{I}}\left({\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\right)\right),\end{array} (4)

    其中{\boldsymbol{I}}_{{\rm{ir}} }{\boldsymbol{I}}_{{\rm{vis}}}分别表示红外图像和可见光图像; {E}_{\mathrm{I}} (·)表示编码器网络对应的功能函数,F(·) 表示特征融合网络对应的功能函数, {D}_{\mathrm{I}}(·) 表示译码器网络对应的功能函数.

    本文所提红外与可见光图像融合网络包括2部分:负责特征提取和图像重建的自编码器网络;负责融合规则学习的GAN.

    自编码器网络是一种经典的自监督网络,其以重建输入数据为导向,先利用编码器网络将图像映射到高维特征空间,再利用译码器网络将高维特征重新映射为图像. 因为译码器网络重建图像的质量依赖于中间高维特征的质量,所以编码器网络必须能提取具有高表达能力的特征,而译码器网络必须具备从中间特征准确重建出源图像的能力. 本文提出了一种新的自编码器网络来实现融合过程中的特征提取和图像重建,如图5(a)所示.

    图  5  用于特征提取和图像重建的自编码器网络结构图
    Figure  5.  Structures of the autoencoder network for feature extraction and image reconstruction

    编码器网络 {E}_{\mathrm{I}} 使用10个卷积层从源图像中提取特征,其中卷积核尺寸均为 \text{3×3} ,激活函数均为lrelu (leaky relu). 在第5和第9层后,使用空间注意力模块对所提特征沿空间位置加权,以增强特征中重要的空间区域(如显著目标、结构纹理). 空间注意力模块[30]的网络结构如图5(b)所示,可以看到,空间注意力模块先使用最大池化和平均池化对固定空间位置不同通道的信息进行聚合,然后使用1个卷积层处理串接的聚合特征,以生成与原始特征空间尺寸相同的注意力谱. 该注意力谱本质上是一系列学习到的权重,对输入特征沿着空间维度进行选择性加权,从而实现感兴趣区域特征的增强. 在编码器中使用空间注意力模块可以有效满足对感兴趣特征的提取偏好,提升编码特征的表达能力. 此外,编码器还将密集连接[31]和残差连接[32]相结合,其一方面把浅层特征不断跳跃连接到深层网络以增强后续特征表达能力和增加特征利用率,另一方面残差连接也避免了特征提取过程出现的梯度消失和爆炸问题.

    在译码器网络 {D}_{\mathrm{I}} 中,先使用2个结合通道注意力模块的多尺度卷积层处理由编码器网络 {E}_{\mathrm{I}} 提取的中间特征. 在每个多尺度卷积层,3个具有不同尺寸卷积核的卷积层并行处理输入特征,其卷积核尺寸分别为 \text{7×7} , \text{5×5} , \text{3×3} ,激活函数均为lrelu. 通道注意力模块[30]的网络结构如图5(c)所示,其先使用最大池化和平均池化对固定通道不同空间位置的特征进行聚合,然后在2个分支中分别使用2个卷积层对聚合特征进行处理,最后将2个分支的处理结果求和得到最终的注意力谱. 该注意力谱是一个长度与输入特征通道数相同的向量,表示将为输入特征每个通道分发的权重. 在自监督重建的优化导向下,译码器将自适应地关注对重建更重要的特征通道,从而提升重建精度. 最后,使用3个卷积核尺寸为 \text{3×3} 的卷积层来重建源图像. 其中,除了最后一层,其他卷积层均使用lrelu作为激活函数,最后一层使用tanh作为激活函数. 在上述特定设计下,所提自编码网络具有强大的特征提取和图像重建能力.

    本文设计了一种新颖的特征融合规则构建方式,其利用GAN将融合策略可学习化,从而获得更好的融合性能,如图6所示.

    图  6  用于融合规则学习的生成式对抗网络结构图
    Figure  6.  Structures of generative adversarial network for fusion rule learning

    首先,特征融合网络F在对抗架构中扮演生成器的角色,其将训练好的编码器网络 {E}_{\mathrm{I}} 提取的红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 和可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} 进行融合,生成融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 在特征融合网络F中,先使用3个卷积核尺寸为3×3、激活函数为lrelu的卷积层来处理输入的红外特征与可见光特征. 然后,采用3个分支来分别预测融合权重 {\omega }_{\mathrm{i}\mathrm{r}} , {\omega }_{\mathrm{v}\mathrm{i}\mathrm{s}} 以及偏差项 \varepsilon . 每个分支包含2个卷积层,其卷积尺寸均为3×3. 在融合权重预测分支,2个卷积层分别使用lrelusigmoid作为激活函数;在偏差预测分支,2个卷积层的激活函数均为lrelu. 融合特征可以被表示为

    \begin{split} &{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}=F\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}},{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)=\\ &{\omega }_{\mathrm{i}\mathrm{r}}·{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}+{\omega }_{\mathrm{v}\mathrm{i}\mathrm{s}}·{\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}+\varepsilon . \end{split} (5)

    其次,使用1个多分类鉴别器MD来区分红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 、可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} 以及特征融合网络 F 合成的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} . 在多分类鉴别器MD中,先使用4个卷积层来处理输入特征,它们的卷积核尺寸均为3×3,激活函数均为lrelu. 然后,处理后的特征被重塑为1个1维向量,并使用1个线性层来输出1个1×2的预测向量,分别表示输入特征为红外特征的概率Pir,以及输入特征为可见光特征的概率Pvis. 特征融合网络 F 和多分类鉴别器MD连续地对抗学习,直到多分类鉴别器MD认为生成器产生的融合特征既是红外特征又是可见光特征,此时特征融合网络 F 便学会合理的融合规则.

    本文的损失函数包括2部分:自编码器网络损失函数和生成式对抗网络损失函数.

    自编码器网络先利用编码器网络 {E}_{\mathrm{I}} 将低维图像映射为高维特征,再利用译码器网络 {D}_{\mathrm{I}} 重新将高维特征映射为低维图像. 也就是说,自编码器网络致力于重建输入图像. 所提方法在强度域和梯度域构建重建图像与输入图像的一致性损失:

    \begin{array}{c}{\mathcal{L}}_{\mathrm{A}\mathrm{E}}={\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}}+\beta {\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}},\end{array} (6)

    其中 {\mathcal{L}}_{\mathrm{A}\mathrm{E}} 是自编码器网络的总损失, {\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}} 是强度损失, {\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}} 是梯度损失, \beta 是平衡强度损失项和梯度损失项的参数. 值得注意的是,自编码器网络的训练同时在红外图像与可见光图像上进行,即红外图像和可见光图像共享编码器网络 {E}_{\mathrm{I}} 和译码器网络 {D}_{\mathrm{I}} 的权重,因此对应的强度损失和梯度损失被定义为:

    \begin{array}{c}{\mathcal{L}}_{\mathrm{i}\mathrm{n}\mathrm{t}}=\left|{\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}}-{\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right|+\left|{\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}}-{\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right|,\end{array} (7)
    \begin{array}{c}{\mathcal{L}}_{\mathrm{g}\mathrm{r}\mathrm{a}\mathrm{d}}=\left|{\nabla \boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}}-{\nabla \boldsymbol{I}}_{\mathrm{i}\mathrm{r}}\right|+\left|{\nabla \boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}}-\nabla {\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right|,\end{array} (8)

    其中IirIvis是输入源红外和可见光图像, {\boldsymbol{I}}_{\mathrm{i}\mathrm{r}}^{\mathrm{r}\mathrm{e}} {\boldsymbol{I}}_{\mathrm{v}\mathrm{i}\mathrm{s}}^{\mathrm{r}\mathrm{e}} 是自编码网络重建的红外和可见光图像,其可以表示为 {\boldsymbol{I}}_{(·)}^{\mathrm{r}\mathrm{e}}={D}_{\mathrm{I}}\left({E}_{\mathrm{I}}\right({\boldsymbol{I}}_{\left(·\right)}\left)\right) . 此外,|·| \ell_1范数,\nabla是Sobel梯度算子,其从水平和竖直2个方向来计算图像的梯度. 在上述损失的约束下,编码器网络 {E}_{\mathrm{I}} 能较好地从源图像中提取特征,译码器网络 {D}_{\mathrm{I}} 则能从编码特征中准确地重建源图像.

    生成式对抗网络通过连续地对抗学习构建高性能融合规则,其网络优化仅依赖于模态概率分布之间的对抗损失,不依赖融合图像与源图像绝对分布之间的距离损失,极大地避免了有益信息被削弱.

    对于特征融合网络F,其目的是产生可以骗过多分类鉴别器MD的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} ,即让MD认为所生成的融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} 既是红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} 又是可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} . 因此,特征融合网络F的损失 {\mathcal{L}}_{{F}}

    \begin{array}{c}{\mathcal{L}}_{{F}}={\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[1\right]-a\right)}^{2}+ {\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[2\right]-a\right)}^{2},\end{array} (9)

    其中MD(·) 表示多分类鉴别器的函数,其输出是1个1×2的概率向量. MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right) [1]指的是该向量的第1项,表示多分类鉴别器判定输入特征是红外特征的概率Pir MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right) [2]指的是该向量的第2项,表示多分类鉴别器判定输入特征是可见光特征的概率Pvis. a 是概率标签,设定a = 0.5,即特征融合网络希望通过自身的优化使得多分类鉴别器无法区分融合特征是红外特征还是可见光特征.

    与特征融合网络F成敌对关系,多分类鉴别器MD希望能准确判断输入特征是红外特征、可见光特征还是由特征融合网络F产生的融合特征. 因此,多分类鉴别器损失 {\mathcal{L}}_{MD} 包括3部分:判定红外特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}} 、判定可见光特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}} 以及判定融合特征的损失 {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}} ,即

    \begin{array}{c}{\mathcal{L}}_{MD}={\alpha }_{1}{\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}}+{\alpha }_{2}{\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}}+{\alpha }_{3}{\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}},\end{array} (10)

    其中, {\alpha }_{1} , {\alpha }_{2} , {\alpha }_{3} 是平衡这些损失项的参数.

    当输入特征为红外特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}} ,多分类鉴别器判定的Pir应趋于1,Pvis应趋于0. 对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{i}\mathrm{r}}}= &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}\right)\left[1\right]-{b}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{i}\mathrm{r}}\right)\left[2\right]-{b}_{2}\right)}^{2}, \end{split} (11)

    其中 {b}_{1} {b}_{2} 是红外特征对应的概率标签,设定 {b}_{1} = 1, {b}_{2} = 0,即多分类鉴别器应该准确识别出输入特征是红外特征而不是可见光特征.

    类似地,当输入特征为可见光特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}} ,对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{v}\mathrm{i}\mathrm{s}}}=&{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\left[1\right]-{c}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{v}\mathrm{i}\mathrm{s}}\right)\left[2\right]-{c}_{2}\right)}^{2}, \end{split} (12)

    其中 {c}_{1} {c}_{2} 是可见光特征对应的概率标签,设定 {c}_{1} = 0, {c}_{2} = 1,即多分类鉴别器应该准确识别出输入特征是可见光特征而不是红外特征.

    当输入特征为融合特征 {\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}} ,多分类鉴别器输出的PirPvis都应趋于0. 对应的损失函数 {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}} 被定义为

    \begin{split} {\mathcal{L}}_{{MD}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}}=&{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[1\right]-{d}_{1}\right)}^{2} +\\ &{\left(MD\left({\boldsymbol{F}\boldsymbol{e}\boldsymbol{a}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{e}\mathrm{d}}\right)\left[2\right]-{d}_{2}\right)}^{2}, \end{split} (13)

    其中 {d}_{1} {d}_{2} 是融合特征对应的概率标签, {d}_{1} {d}_{2} 都被设为0,即MD应能准确识别出输入特征既不是红外特征也不是可见光特征.

    本节将在公开数据集上评估所提方法. 5个最先进的红外与可见光图像融合方法被挑选作为对比,包括GTF[12], MDLatLRR[33], DenseFuse[18], FusionGAN[16], U2Fusion[15]. 值得注意的是,在后续实验中,DenseFuse使用推荐的性能更好的Addition策略. 首先,提供实验配置,如实验数据、训练细节以及评估指标. 其次,从定性和定量2方面实施对比实验. 本节还提供泛化性实验、效率对比及消融实验来验证所提方法的有效性.

    本文选用TNO数据集[34]和MFNet数据集[35]作为对比实验的数据,TNO数据集和MFNet数据集用于测试的图像对数量分别为20和200, 用于训练的数据分别为裁剪得到的45910对和96200对80×80的图像块. 此外,选用RoadScene[36]数据集作为泛化性实验的数据,用于测试的图像对数量为20. 以上3个数据集中的图像对都已被严格配准[37].

    首先训练自编码器网络. 在自编码器网络的训练过程中,批大小被设置为s1,训练1期需要m1步,一共训练M1期. 在实验中,设置为s1 = 48,M1 = 100,m1是训练图像块总数量和批大小s1的比率. 自编码器网络训练好后冻结其参数,然后在训练好的编码器网络提取的特征空间中训练GAN. 在GAN的训练过程中,批大小被设置为s2,训练1期需要m2步,一共训练M2期. 在实验中,设置s2 = 48,M1 = 20,m2是训练图像块总数量和批大小s2的比率. 无论是自编码器网络还是GAN,都采用Adam优化器来更新参数. 在整个训练结束后,将编码器网络、特征融合网络以及译码器网络级联组成完整的图像融合网络. 值得注意的是,因为该图像融合网络是一个全卷积神经网络,输入可以是任意尺寸源图像对,即测试时不需要像训练那样对源图像进行裁剪. 此外,根据经验,设定式(6)中的参数β = 10,式(10)中的参数α1 = 0.25, α2 = 0.25, α3 = 0.5. 所有的实验均在GPU NVIDIA RTX 2080Ti及CPU Intel i7-8750H上实施.

    本文从定性和定量2个方面评估各方法的性能. 定性评估是一种主观评估方式,其依赖于人的视觉感受,好的融合结果应同时包含红外图像的显著对比度和可见光图像的丰富纹理. 定量评估则通过一些统计指标来客观评估融合性能,本文选用了7个在图像融合领域被广泛使用的定量指标,如视觉信息保真度[38](visual information fidelity, VIF)、信息熵[39](entropy, EN)、差异相关和[40](the sum of the correlations of differences, SCD)、互信息[41](mutual information, MI)、质量指标[42](quality index, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} )、标准差[43](standard deviation, SD)及空间频率[44](spatial frequency, SF). VIF测量融合图像保真度,大的VIF值表示融合图像保真度高;EN测量融合图像的信息量,EN值越大,融合图像包含的信息越多;SCD测量融合图像包含的信息与源图像的相关性,SCD越大意味着融合过程引入的伪信息越少;MI衡量融合图像中包含来自源图像的信息量,MI越大意味着融合图像包含来自源图像的信息越多; {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} 衡量融合过程中边缘信息的保持情况, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} 越大,边缘被保持得越好;SD是对融合图像对比度的反映,大的SD值表示良好的对比度;SF测量融合图像整体细节丰富度,SF越大,融合图像包含的纹理越丰富.

    首先,在TNO数据集上进行定性对比. 5组典型的结果被挑选来定性地展示各方法的性能,如图7所示. 可以看出,本文所提方法有2方面的优势:一方面,本文方法能非常精确地保留红外图像中的显著目标,它们的热辐射强度几乎没有损失,且边缘锐利;另一方面,所提方法也能很好地保留可见光图像中的纹理细节.

    图  7  TNO数据集上对比实验的定性结果
    Figure  7.  Qualitative results of the comparative experiment on TNO dataset

    从融合结果的倾向性可以把对比方法分为2类:第1类是融合结果倾向于可见光图像的方法,如MDLatLRR, DenseFuse, U2Fusion. 从图7中可以看到,这一类方法的融合结果虽然包含丰富的纹理细节,但其对比度较差,热辐射目标被削弱. 例如,在第1组结果中,MDLatLRR, DenseFuse, U2Fusion对树木纹理保留得较好,但却削弱了目标建筑物的亮度. 类似的还有第2组中的水面、第3组和第4组中的人以及第4组中的坦克. 第2类是融合结果倾向于红外图像的方法,如GTF和FusionGAN. 这一类方法能较好地保留热目标,但纹理细节不够丰富,它们的结果看起来很像是锐化的红外图像. 如在图7中的第1组结果中,GTF和FusionGAN较好地保留了目标建筑物的显著性,但周边树木的纹理结构却不够丰富. 类似地还有第2组中的灌木、第3组中的路灯以及第4组中的树叶. 本文所提方法综合了这2类方法的优势. 具体来说,所提方法既能像第1类方法那样保持场景中的纹理细节,又能像第2类方法那样准确保持热辐射目标. 值得注意的是所提方法对热目标边缘保持得比第2类方法更锐利. 总的来说,本文方法在定性对比上优于这些最新方法.

    进一步,在20幅测试图像上的定量对比结果如表1所示. 可以看出,本文所提方法在EN, SCD, MI, {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} , SD, SF这6个指标上都取得最高平均值;在VIF上,本文方法排行第2,仅次于方法U2Fusion. 这些结果说明:本文方法在融合过程中从源图像传输到融合图像的信息最多、引入的伪信息最少、能最好地保持边缘. 生成的融合结果包含的信息量最大、有最好的对比度、具有最丰富的整体纹理结构. 总的来说,本文方法相较于这些对比方法在定量指标上也是有优势的.

    表  1  TNO数据集上对比实验的定量结果
    Table  1.  Quantitative Results of the Comparative Experiment on TNO Dataset
    融合方法VIFENSCDMI{ \boldsymbol{Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.350±0.0526.753±0.3960.985±0.1651.200±0.4400.423±0.10035.157±11.40510.315±5.268
    MDLatLRR0.346±0.0516.438±0.4081.663±0.1351.037±0.2250.435±0.07726.148±6.2427.930±3.587
    DenseFuse0.386±0.0916.836±0.2731.835±0.1281.114±0.2690.440±0.10335.144±8.8919.296±3.806
    FusionGAN0.231±0.0466.450±0.3231.512±0.2281.099±0.2070.210±0.05527.683±6.0526.075±2.051
    U2Fusion0.423±0.1066.923±0.2511.808±0.0940.906±0.1970.430±0.06834.446±7.65911.928±4.681
    本文方法0.414±0.1037.183±0.2831.936±0.0601.240±0.2750.446±0.11048.605±8.67113.203±4.792
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    在MFNet数据集上实施定性对比实验,同样提供5组代表性的结果来展示各种方法的性能,如图8所示. 可以看到,只有GTF, FusionGAN以及本文方法能较好地维护红外图像中热辐射目标的显著度,但相较于这2种方法,本文方法能更好地保持热目标边缘的锐利性,呈现良好的视觉效果. 例如,在第3, 4, 5组结果中,本文方法能较好地保持热目标行人的姿态,而GTF, FusionGAN均由于边缘扩散导致轮廓模糊. 相反,MDLatLRR, DenseFuse, U2Fusion太过于偏重于保留结构纹理,而忽视了热辐射目标保留,这导致一些场景中目标削弱或丢失. 例如,在第2组结果中,汽车旁边的微小行人在这些方法的结果中被丢失. 相较而言,本文方法能在热目标和结构纹理的保留上取得较好的平衡. 例如,第1组结果中,所提方法既维持了窗户的显著性,又保留了墙壁的纹理细节. 总体而言,本文方法在MFNet数据集的定性对比上比这些最新方法有优势.

    图  8  MFNet数据集上对比实验的定性结果
    Figure  8.  Qualitative results of the comparative experiment on MFNet dataset

    在MFNet数据集中的200幅测试图像上定量地对比这些最新方法以及本文所提方法,结果如表2所示. 本文方法在EN, SCD, MI, SD这4个指标上排行第1,在指标SF上排行第2,仅次于U2Fusion. 这些客观结果表明本文方法所得结果包含的信息量最丰富、引入的伪信息最少,与源图像的相关性最大,以及具有最好的对比度,这些定量结果和图8展示的视觉结果相符合. 总的来说,本文方法在MFNet数据集上的定量对比上比其他方法性能更好.

    表  2  MFNet数据集上对比实验的定量结果
    Table  2.  Quantitative Results of the Comparative Experiment on MFNet Dataset
    融合方法VIFENSCDMI{\boldsymbol {Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.311±0.0227.458±0.1971.027±0.1861.575±0.2300.399±0.05955.343±8.67110.501±1.866
    MDLatLRR0.327±0.0256.896±0.2251.306±0.2391.325±0.2330.461±0.03439.477±7.1819.016±0.986
    DenseFuse0.326±0.0307.131±0.2291.653±0.1491.398±0.2410.475±0.03848.696±8.16310.200±1.265
    FusionGAN0.178±0.0226.882±0.3000.609±0.5941.424±0.1860.234±0.04435.397±5.7657.299±1.288
    U2Fusion0.350±0.0357.253±0.1981.657±0.1151.266±0.2320.496±0.02850.794±8.58214.072±1.546
    本文方法0.319±0.0277.562±0.2051.731±0.0851.609±0.2460.422±0.03665.392±8.49410.749±1.242
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    本文所提方法能较好地迁移到其他数据集,也可以处理彩色可见光和红外图像融合. 为了评估本文方法的泛化性,实施了泛化性实验. 具体来说,使用RoadScene数据集中的图像测试在TNO数据集上训练得到的模型. 由于RoadScene数据集中的可见光图像是彩色图像,先将可见光图像从RGB转换到YCbCr色彩空间,然后融合Y通道与红外图像. 最后,将融合结果与Cb和Cr通道拼接在一起,并重新转换到RGB色彩空间得到最终的融合结果. 上述5种对比方法在泛化性实验中仍然被采用,且评估仍然从定性和定量2个方面来进行.

    5组代表性的定性结果被挑选来展示各方法的泛化能力,如图9所示. 可以看出,本文所提方法在RoadScene数据集上仍具有良好性能,且相较于对比方法在纹理保持和显著目标保留2个方面的优势仍十分明显. 首先,在显著目标保持上,本文所提方法表现最好,如第1组图像中的车辆、第2组和第4组中的骑行者,以及第3组和第5组中的行人. 相反,在MDLatLRR, DenseFuse, U2Fusion的融合结果中,这些显著目标被削弱. 虽然GTF和FusionGAN相对这些方法能更好地保留显著目标,但其在目标边缘保护上却不如所提方法. 其次,本文方法也能保证可见光图像中的纹理细节被很好地传输到融合图像中,如第1组和第4组结果中的云朵、第2组和第3组结果中的树木,以及第5组结果中的广告牌,而GTF和FusionGAN做不到这些. 因此,这些定性结果可以说明本文方法具有良好的泛化性,其能被迁移到RoadScene数据集,并得到高质量的融合图像.

    图  9  泛化实验的定性结果
    Figure  9.  Qualitative results of the generalization experiment

    定量实验被实施来进一步验证所提方法的泛化性能,结果如表3所示. 本文方法在EN, SCD, MI, SD这4个指标上取得了最好的结果,在SF上取得了第2好的结果. 对于VIF {{Q}}^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F}} ,所提方法分别排行第4和第3. 总的来说,本文所提方法在RoadScene数据集上的定量结果最好,这进一步说明了所提方法优良的泛化性.

    表  3  泛化实验的定量结果
    Table  3.  Quantitative Results of the Generalization Experiment
    融合方法VIFENSCDMI{\boldsymbol {Q} }^{\boldsymbol{A}\boldsymbol{B}/\boldsymbol{F} }SDSF
    GTF0.303±0.0317.486±0.1901.047±0.1011.563±0.2410.340±0.04548.911±6.4878.247±1.342
    MDLatLRR0.320±0.0366.933±0.2981.257±0.3241.445±0.2860.506±0.05532.647±6.3369.287±2.158
    DenseFuse0.329±0.0487.283±0.2451.669±0.2181.503±0.2800.534±0.04243.337±6.86911.228±2.197
    FusionGAN0.204±0.0227.111±0.1581.057±0.3931.377±0.1720.280±0.03839.024±4.3548.203±1.024
    U2Fusion0.344±0.0527.249±0.2631.546±0.2361.293±0.2590.535±0.03740.279±7.03214.406±2.668
    本文方法0.316±0.0397.575±0.1851.726±0.1351.641±0.3030.506±0.03654.533±6.57711.774±2.274
    注:↑表示值越高越好,加粗表示最优结果,加下划线表示次优结果.
    下载: 导出CSV 
    | 显示表格

    运行效率是评估方法性能的重要依据之一,为此,统计各方法在TNO, MFNet, RoadScene数据集上的平均运行时间来比较运行效率,结果如表4所示. 本文所提方法在3个数据集上都取得了最快的平均运行速度,比对比方法快5倍以上.

    表  4  各方法在3个数据集上的平均运行时间
    Table  4.  Mean of Running Time of Each Method on Three Datasets s
    融合方法TNOMFNetRoadScene
    GTF5.3023.2591.644
    MDLatLRR35.56928.05215.188
    DenseFuse0.3580.2990.562
    FusionGAN0.3600.1960.403
    U2Fusion0.6130.2640.643
    本文方法0.0660.0380.029
    注:加粗表示最优结果.
    下载: 导出CSV 
    | 显示表格

    在所提方法中,最终实现红外与可见光图像融合的框架包括编码器网络、特征融合网络以及译码器网络. 为了验证它们的有效性,相应的消融实验被实施.

    特征融合网络的作用是将中间特征的融合策略可学习化,从而使得融合特征同时符合红外与可见光2种模态特征的概率分布. 相较于现存方法使用的传统特征融合策略,所提的特征融合网络具有更强的性能. 为了验证这一点,将本文提出的用于特征提取和特征重建的编码器网络和译码器网络固定,中间特征融合规则分别用Mean策略、Max策略、Addition策略、l1-norm策略及所提特征融合网络,实验结果如图10所示.

    图  10  特征融合网络的消融实验结果
    Figure  10.  Ablation experiment results of feature fusion network

    首先,由Mean策略、Max策略以及l1-norm策略得到的结果的对比度都非常差,不仅显著目标被削弱,场景纹理结构也不够自然. Addition策略虽然比这些策略的性能更好,但其无法自适应地选择性保留有益信息,以至于某些区域出现过度饱和或亮度中和的现象. 比如,在第1组结果中,由Addition策略得到的结果没有充分保留水面的亮度;在第2组结果中,建筑物的亮度又是过度饱和的. 相反,采用本文所提的特征融合网络可以自适应地保留红外与可见光源图像中的显著特征,其不仅具有显著的对比度,而且包含丰富的纹理细节. 这些结果可以说明所提特征融合网络的有效性.

    自编码器网络的作用是实现特征提取和图像重建,其性能对融合结果的质量影响很大. 为了验证本文设计的自编码器网络的优势,将其与经典的DenseFuse[13]进行对比. 具体地,我们控制融合规则保持相同(Addition策略以及l1-norm策略),使用本文提出的自编码器网络或DenseFuse中的自编码器网络来提取特征和重建图像,实验结果如图11所示.

    图  11  自编码器的消融实验结果
    Figure  11.  Ablation experiment results of autoencoder

    对于Addition策略,DenseFuse结果中的显著目标被严重削弱,而本文方法却可以很好地保持它们. 对于l1-norm策略,DenseFuse丢失了一些纹理结构,如云朵和椅子,而所提方法很好地保持了这些细节. 总的来说,本文设计的自编码器网络的性能比DenseFuse中的更强,其可以较好地实现特征提取和图像重建.

    综上所述,本文提出的基于特征空间多分类对抗机制的红外与可见光图像融合网络主要包括2个部分:1) 引入空间注意力机制,同时使用密集连接和残差连接来构建高性能编码器网络实现特征提取;引入通道注意力机制,同时使用多尺度卷积来构建高性能译码器网络实现图像重建. 2) 将融合策略网络化,引入多分类生成对抗机制使融合特征同时符合红外与可见光2种模态的概率分布,从而构建高性能的深度融合策略. 最终的红外与可见光图像融合网络由训练好的编码器、特征融合网络以及译码器级联而成,生成高质量的融合结果. 相较于现存方法,所提方法可解释性好,能根据输入图像自适应生成更合理的融合策略,从而在源图像中同时保留丰富的纹理细节和显著的对比度,有效避免融合过程中有益信息的削弱问题. 广泛的实验表明,所提方法与最新的融合方法GTF, MDLatLRR, DenseFuse, FusionGAN, U2Fusion相比,融合性能更好. 同时,本文方法的融合速度很快,较对比方法快5倍以上.

    作者贡献声明:张浩提出方法思路,设计及实施实验,分析结果并撰写论文;马佳义构思和设计研究方向,对论文提出建设性的意见,并对手稿进行修改;樊凡协助实施实验,并分析实验结果;黄珺对论文提出建设性的意见,并对稿件进行了修改;马泳完善方法理论,并对稿件进行了修改.

    SO(3):特殊正交群(special orthogonal group),指3D旋转(rotation)、旋转矩阵到旋转向量;SE(3):特殊欧氏群(special Euclidean group),指3D变换=旋转(rotation)+平移(translation),也称欧氏变换(Euclidean transformation).
    旋转不变映射可以由具有等变对齐的任何映射构造. 旋转等变映射可以由具有等变对齐的任何旋转不变映射构造. 与不变性相比,等变性保留而不是丢弃空间结构,是更具区别性的表示.
  • 图  1   图像与点云的对比

    Figure  1.   Comparison of images and point clouds

    图  2   视频与点云序列的对比

    Figure  2.   Comparison of video and point cloud sequence

    图  3   3D点云的转化方法

    Figure  3.   Transformation methods of 3D point clouds

    图  4   二维和三维卷积算子示意图

    Figure  4.   Illustration of 2D and 3D convolution operators

    图  5   以点pi为中心的局部邻域及其对应的离散卷积和连续卷积

    Figure  5.   Local neighborhood centered on point pi and its corresponding discrete convolution and continuous convolution

    图  6   几何卷积运算

    Figure  6.   Geometric convolution operations

    图  7   定义不同的点邻域

    Figure  7.   Point neighborhoods with different definitions

    图  8   空洞卷积的对比

    Figure  8.   Comparison of dilated/atrous convolutions

    图  9   引入虚拟化辅助信息

    Figure  9.   Introduction of virtualization auxiliary information

    图  10   基于点的卷积方法概览

    Figure  10.   Chronological overview of point-based convolution methods

    图  11   基于点的卷积算子分类

    Figure  11.   Classification of point-based convolution operators

    图  12   基于点的CNNs的基本框架

    Figure  12.   Basic frameworks of point-based CNNs

    图  13   基于点的CNNs训练流程

    Figure  13.   The training flow of point-based CNNs

    图  14   点云分割任务对比

    Figure  14.   Comparison of point cloud segmentation tasks

    图  15   3类点云任务的对比结果

    Figure  15.   Comparison results of three point cloud tasks

    图  16   基于点的卷积运算的未来研究方向

    Figure  16.   The future research directions of point-based convolution operations

    表  1   PCNN与SPHNet的网络结构与性能对比

    Table  1   Comparison of Network Structures and Performance on PCNN and SPHNet

    PCNNSPHNet
    网络结构卷积层扩展算子连续体素函数狄拉克测度的加权组合
    卷积算子径向基函数球谐函数核
    限制算子将卷积结果投影回点云空间将卷积结果投影回点云空间
    网络性能采样层最远点采样空间分割数据结构
    池化层最大池化类似于kdtree[77]
    旋转不变性使用高斯核径向基函数,不具备旋转不变性引入旋转不变卷积SPHConv,
    具备旋转不变性
    计算方法使用每个点来携带核权重和相关函数进行卷积运算,
    不使用任何形式的邻域
    使用K近邻片元将卷积运算限制在固定
    数量的近邻点上
    计算复杂度O(|P|2O(|P|lb|P|)
    下载: 导出CSV

    表  2   基于点的卷积方法分类与对比

    Table  2   Classification and Comparison of Point-Based Convolution Methods

    类型基于点的卷积方法的创新之处优点缺点
    离散卷积 点的排列
    不变性
    1)指定点的输入顺序[55] 将点从欧氏空间映射到了其他空间,解决了点云的排列不变性问题 容易损失3D物体的几何信息
    2)采用点之间的相对位置提取特征[56]
    3)针对不同大小的物体设置不同邻域[57]
    点的几何
    特性
    1)建立点的方向向量并分解点之间组成的边向量[58-59] 在整个特征提取中保留欧氏空间的几何结构信息,更充分地学习点之间的几何信息 适应性较差,可能需要针对数据集的不同特点进行个性化设计
    2)设计不同类型的点的局部邻域[60-61]
    3)改变点卷积的感受野[63-66]
    4)构建点与卷积权重之间的相关性[67-69]
    连续卷积 1)新增虚拟点[70-72] 与离散卷积方法相比,连续卷积方法更适合捕捉3D点云的局部几何特征 根据一些先验信息或规则预定义虚拟信息一定程度上限制了网络的灵活性
    2)构建虚拟空间[73-74]
    3)搭建虚拟结构[75-76]
    4)参数化卷积核函数[78-88] 使卷积算子更加复杂,待训练参数较多,学习效率低下,网络的收敛性也更加困难,容易出现过拟合
    下载: 导出CSV

    表  3   点云任务及其基础网络框架

    Table  3   Point Cloud Tasks and Their Basic Frameworks

    点云任务网络框架研究工作
    形状分类分类网络文献[5556,58,6061,6364,6670,7276,7988]
    部件分割分割网络文献[56,6061,63,65,6870,72,7476,79,81,8385,8788]
    语义分割分割网络文献[5557,5960,6365,6768,7071,7374,76,78,8082,88]
    法线估计分割网络文献[73,80,8385]
    下载: 导出CSV

    表  4   现有研究中分类和分割网络的具体网络结构

    Table  4   The Specific Network Structures of Classification and Segmentation Networks in Existing Research

    卷积网络卷积算子编码器分类器解码器
    Pointwise CNN[55]Pointwise Convolution4 CL1 FC2 FC
    PointCNN[56]χ-Conv2 CL4 FC2 DCL
    MCCNN[57]χ-Conv3 CL1 FC + 1 Softmax3 DCL
    Geo-CNN[58]Geo-Conv1 FC + 3 CL1 FC + 1 BN + 1 ReLU
    BPM-GEM[59]GCO1 BPM + 3 GEM3 GEM
    ShellNet[60]ShellConv3 CLm MLP3 (CL + MLP) + m MLP
    Ψ-CNN[61]Spherical Convolution1 (Octree[62] + m MLP)4 PL + 3 FC3 FC
    PAN[63]PAC4 CL + 1 PL + 1 MLP + 1 PL2 (FC + ReLU)2 (FC + ReLU) + 4 DCL +
    1 PL + 1 MLP
    DPCNN[64]DPCm CL + 1 PL2 FC3 FC
    LAM-PointNet(++)[65]DSConv2 CL1 PL + 1 FC1 PL + 1 FC + 2 CL
    EPN[66]SPConv10 (CL + BN + ReLU)1 PL
    HIGCNN[67]HIGConv2 (CL + Softmax + PL)1 MLP4 (IL + MLP) + 2 FC
    InterpCNN[68]InterpConv6 (CL + BN + ReLU);
    8 (CL + BN + ReLU)
    1 CL + 1 PL + 1 FC1 PL + 4 UL + 1 CL
    StatsCNN[69]StatsConv5 CL; 4 (2 (CL + ReLU) +
    1 PL) + 2 (CL + ReLU)
    1 PL + 1 FC + 1 Softmax4 (1 UL + 2 (CL + ReLU)) +
    2 (CL + ReLU) + 1 CL
    KP-(F)CNN[70]KPConv5 (CL + BN + ReLU) + 1 PL1 FC + 1 Softmax5 (UL + MLP)
    MappingConvSeg[71]MappingConv1 FC + 4 CL1 MLP1 MLP + 4 (UL + MLP) + 3 FC
    GCANet[72]GCAConv3 CL1 MLP2 (DCL + MLP) + 1 DCL
    SPCNN[73]SPConv3 CL; 5 CL3 FL5 IL
    PACNN[74]PAConv2 CL1 CL + 1 FC2 (UL + CL)
    Flex-CNN[75]Flex-Convolution6 (2 CL + 1 PL)1 Softmax6 (CL + UL)
    ConvPointNet[76]ConvPoint5 (CL + BN + ReLU);
    7 (CL + BN + ReLU)
    1 FC6 (DCL + BN + ReLU) + 1 FC
    PCCN[78]Parametric Continuous Convolution8 CL2 FC1 PL + 2 FC + 1 Softmax
    SpiderCNN[79]SpiderConv3 (CL + ReLU)3 MLP + 1 Softmax4 MLP + 1 Softmax
    MCCNN[80]MCConvolution4 (CL + BN + ReLU)1 MLP = 3 FC1 CL + 1 MLP
    PointConvCNN[81]PointConv2 CL1 FC2 (IL + DCL)
    PatchCNN[82]PatchConv3 CL; 4 CL3 FC4 (IL + CL)
    RS-CNN[83]RS-Conv3 CL; 4 CL3 (FC + BN)4 UL
    DensePoint[84]PConv2 (PL + CL + BN + ReLU) + 1 PL3 FC3 (PL + CL + BN +
    ReLU) + 1 PL
    PCNN[85]Sparse Extrinsic Convolution3 (CL + BN + ReLU + PL)2 FC4 (UL + DCL) + 1 (CL +
    BN + ReLU + PL)
    SPHNet[86]SPHConv2 (CL + PL) + 1 CL;
    3 (CL + PL) + 1 CL
    1 PL + 2 FC + 1 Softmax3 (UL + CL) + 1
    (CL + Softmax)
    RINet[87]RIConv3 (CL + BN + ReLU)1 FC2 (CL + MLP) + 1 CL
    MA-KPC[88]MA-KPConv5 (CL + BN + ReLU) + 1 PL1 FC + 1 Softmax5 (UL + MLP)
    注:CL表示卷积层,DCL表示反卷积层,FC表示全连接层,MLP表示多层感知机,PL表示池化层(最大/平均/该研究提出的),UL表示上采样层,IL表示插值层,BN表示批归一化层,Softmax和ReLU表示激活函数层,数字表示层数(其中m表示层数未给出).
    下载: 导出CSV

    表  5   分类网络性能在ModelNet40数据集上的对比结果

    Table  5   Comparison Results of Classification Networks' Performances on the ModelNet40 Dataset %

    卷积网络(卷积算子)输入
    类型
    OAmAcc
    经典方法PointNet[4]P89.286.2
    经典方法PointNet++[5]P90.7
    经典方法PointNet++[5]P + N91.9
    基于投影的方法ACNN[14]P89.1
    基于投影的方法A-CNN[16]P + N92.690.3
    基于体素的方法3DmFV-Net[23]P91.6
    基于晶格的方法SFCNN[26]P91.4
    基于晶格的方法SFCNN[26]P + N92.3
    基于图的方法SPH3D-GCN[43]P89.3
    Pointwise CNN (Pointwise Convolution)[55]P86.181.4
    PointCNN (χ-Conv)[56]P92.288.1
    Geo-CNN (Geo-Conv)[58]P93.491.1
    ShellNet (ShellConv)[60]P93.1
    Ψ-CNN (Spherical Convolution)[61]P88.7
    PAN (PAC)[63]P + N93.4
    DPCNN (DPC)[64]P + N93.191.4
    EPN (SPConv)[66]P88.3
    HIGCNN (HIGConv)[67]P93.2
    HIGCNN (HIGConv+NAC)[67]P93.3
    InterpCNN (InterpConv)[68]P93.0
    StatsCNN (StatsConv)[69]P89.6
    KP-CNN (Rigid KPConv)[70]P92.9
    KP-CNN (Deformable KPConv)[70]P92.7
    GCANet (GCAConv)[72]P89.289.1
    SPCNN (SPConv)[73]P93.8
    PACNN (PAConv)[74]P93.9
    Flex-CNN (Flex-Convolution)[75]P90.2
    ConvPointNet (ConvPoint)[76]P91.888.5
    SpiderCNN (SpiderConv)[79]P + N92.4
    MCCNN (MC Convolution)[80]P90.9
    PointConvCNN (PointConv)[81]P + N92.5
    PatchCNN (PatchConv)[82]P91.3
    PatchCNN (PatchConv)[82]P + N92.4
    RS-CNN (RS-Conv)[83]P93.6
    DensePoint (PConv)[84]P93.2
    PCNN (Sparse Extrinsic Convolution)[85]P92.3
    SPHNet (SPHConv)[86]P87.7
    RINet (RIConv)[87]P86.5
    MA-KPC (MA-KPConv)[88]P89.1
    注:P表示点坐标(coordinates),N表示法向量(normals),数字加粗项表示该列指标截至目前的相对较优结果,↑表示该列指标值越大网络性能越好.
    下载: 导出CSV

    表  6   部件分割网络性能在ShapeNet数据集上的对比结果

    Table  6   Comparison Results of Part Segmentation Networks' Performances on the ShapeNet Dataset %

    卷积网络(卷积算子)输入类型class
    mIoU
    instance
    mIoU
    经典方法PointNet[4]P83.7
    基于投影的方法A-CNN[16]P85.9
    基于投影的方法A-CNN[16]P + N86.1
    基于体素的方法SparseConvNet[20]P63.5
    基于体素的方法PVCNN[22]P86.2
    基于晶格的方法SPLATNet3D[25]P82.084.6
    基于晶格的方法SPLATNet2D-3D[25]I + P83.785.4
    基于晶格的方法SFCNN[26]P85.4
    基于图的方法SPH3D-GCN[43]P84.986.8
    PointCNN (χ-Conv)[56]P84.686.1
    ShellNet (ShellConv)[60]P82.8
    Ψ-CNN (Spherical Convolution)[61]P86.8
    PAN (PAC)[63]P + N82.685.7
    LAM-PointNet (DSConv)[65]P84.1
    LAM-PointNet++ (DSConv)[65]P85.3
    InterpCNN (InterpConv)[68]P84.086.3
    StatsCNN (StatsConv)[69]P80.5
    KP-CNN (Rigid KPConv)[70]P85.086.2
    KP-CNN (Deformable KPConv)[70]P85.186.4
    GCANet (GCAConv)[72]P77.3
    PACNN (PAConv)[74]P84.686.1
    Flex-CNN (Flex-Convolution)[75]P85.0
    ConvPointNet (ConvPoint)[76]P83.485.8
    SpiderCNN (SpiderConv)[79]P + N82.485.3
    PointConvCNN (PointConv)[81]P + N82.885.7
    RS-CNN (RS-Conv)[83]P84.086.2
    DensePoint (PConv)[84]P84.286.4
    PCNN (Sparse Extrinsic Convolution)[85]P81.885.1
    RINet (RIConv)[87]P75.5
    MA-KPC (MA-KPConv)[88]P79.5
    注:I表示图像(images),P表示点坐标(coordinates),N表示法向量(normals),数字加粗项表示该列指标截至目前的相对较优结果,↑表示该列指标值越大网络性能越好.
    下载: 导出CSV

    表  7   常见的真实场景数据集

    Table  7   Common Real-World Datasets

    数据集传感器设备场景范围场景数空间大小类标签数
    S3DIS (2016)[91]Matterport相机(包含3个不同间距的结构光传感器)室内610×5×514
    ScanNet (2017)[92]RGB-D相机室内218×4×420
    Semantic3D (2017)[93]地面激光扫描仪(terrestrial laser scanners, TLS)-静态室外7250×260×808
    SemanticKITTI (2019)[94]移动激光扫描仪(mobile laser scanners, MLS)-动态室外4150×100×1028
    下载: 导出CSV

    表  8   语义分割网络性能对比结果

    Table  8   Comparison Results of Semantic Segmentation Networks' Performances %

    卷积网络(卷积算子)室内数据集 室外数据集
    S3DIS[91] ScanNet[92] Semantic3D[93] SemanticKITTI[94]
    OAclass mIoU OAclass mIoU OAclass mIoU OAclass mIoU
    经典方法PointNet[4] 84.5
    经典方法PointNet++[5] 73.9
    基于投影的方法A-CNN[16] 87.3 85.4
    基于体素的方法PVCNN[22] 82.60 46.94
    基于体素的方法PVCNN++[22] 87.12 58.98
    基于图的方法SPH3D-GCN[43] 87.9 61.0
    Pointwise CNN (Pointwise Convolution)[55] 81.5
    PointCNN (χ-Conv)[56] 88.1 65.39 85.1 45.8
    MCCNN (χ-Conv)[57] 84.5
    BPM-GEM (GCO)[59] 61.43 63.5
    ShellNet (ShellConv)[60] 66.8 85.2 69.4
    PAN (PAC)[63] 85.9 61.4
    DPCNN (DPC)[64] 86.78 61.28 85.95 59.52
    LAM-PointNet (DSConv)[65] 59.1
    HIGCNN (HIGConv)[67] 79.7 52.7
    InterpCNN (InterpConv)[68] 88.7 66.7
    KP-CNN (Rigid KPConv)[70] 65.4 68.6 74.6
    KP-CNN (Deformable KPConv)[70] 67.1 68.4 73.1
    MappingConvSeg (MappingConv)[71] 86.8 66.8
    SPCNN (SPConv)[73] 88.21 62.08
    PACNN (PAConv)[74] 66.58
    ConvPointNet (ConvPoint)[76] 88.8 68.2 93.4 76.5
    PCCN (Parametric Continuous Convolution)[78] 58.27 94.56 46.35
    MCCNN (MC Convolution)[80] 85.9
    PointConvCNN (PointConv)[81] 55.6
    PatchCNN (PatchConv)[82] 58.1
    MA-KPC (MA-KPConv)[88] 62.1
    注:数字加粗项表示该列指标截至目前的相对较优结果,↑表示该列指标值越大网络性能越好.
    下载: 导出CSV

    表  9   ModelNet40数据集上的法线估计任务对比结果

    Table  9   Comparison Results of Normal Estimation Task on ModelNet40 Dataset

    卷积网络余弦损失 ↓
    经典方法PointNet[4]0.470
    经典方法PointNet++[5]0.290
    SPCNN (SPConv)[73]0.146
    MCCNN (MC Convolution)[80]0.160
    RS-CNN (RS-Conv)[83]0.150
    DensePoint (PConv)[84]0.149
    PCNN (Sparse Extrinsic Convolution)[85]0.190
    注:数字加粗项表示该列指标截至目前的相对较优结果,↓表示该列指标值越小网络性能越好.
    下载: 导出CSV
  • [1]

    Kato S, Tokunaga S, Maruyama Y, et al. Autoware on board: Enabling autonomous vehicles with embedded systems[C] //Proc of the 9th IEEE Int Conf on Cyber-Physical Systems (ICCPS). Piscataway, NJ: IEEE, 2018: 287−296

    [2]

    Pomerleau F, Colas F, Siegwart R. A review of point cloud registration algorithms for mobile robotics[J]. Foundations and Trends in Robotics, 2015, 4(1): 1−104 doi: 10.1561/2300000035

    [3]

    Guo Yulan, Wang Hanyun, Hu Qingyong, et al. Deep learning for 3D point clouds: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(12): 4338−4364 doi: 10.1109/TPAMI.2020.3005434

    [4]

    Qi C R, Su Hao, Mo Kaichun, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2017: 652 − 660

    [5]

    Qi C R, Yi Li, Su Hao, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C/OL] //Proc of the 31st Neural Information Processing Systems (NIPS). Cambridge, MA: MIT Press, 2017[2022-06-14]. https://proceedings.neurips.cc/paper/2017/file/d8bf84be3800d12f74d8b05e9b89836f-Paper.pdf

    [6]

    LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278−2324 doi: 10.1109/5.726791

    [7]

    Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2014: 580−587

    [8]

    Hou Le, Samaras D, Kurc T M, et al. Patch-based convolutional neural network for whole slide tissue image classification[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2016: 2424−2433

    [9]

    Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C] //Proc of the 18th Int Conf on Medical Image Computing and Computer-Assisted Intervention (MICCAI). Berlin: Springer, 2015: 234−241

    [10]

    Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834−848 doi: 10.1109/TPAMI.2017.2699184

    [11]

    Qi C R, Su Hao, Niebner M, et al. Volumetric and multi-view CNNs for object classification on 3D data[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2016: 5648−5656

    [12]

    Huang Haibin, Kalogerakis E, Chaudhuri S, et al. Learning local shape descriptors from part correspondences with multi-view convolutional networks[J]. ACM Transactions on Graphics, 2017, 37(1): 1−14

    [13]

    Wei Xin, Yu Ruixuan, Sun Jian. View-GCN: View-based graph convolutional network for 3D shape analysis[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2020: 1847−1856

    [14]

    Xu Sheng, Zhou Xuan, Ye Weidu, et al. Classification of 3D point clouds by a new augmentation convolutional neural network[J/OL]. IEEE Geoscience and Remote Sensing Letters, 2022 [2022 − 06-01]. https://doi.org/10.1109/LGRS.2022.3141073

    [15]

    Tatarchenko M, Park J, Koltun V, et al. Tangent convolutions for dense prediction in 3D[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 3887−3896

    [16]

    Komarichev A, Zhong Zichun, Hua Jing. A-CNN: Annularly convolutional neural networks on point clouds[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 7413−7422

    [17]

    Lin Yiqun, Yan Zizheng, Huang Haibin, et al. FPConv: Learning local flattening for point convolution[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2020: 4292−4301

    [18]

    Maturana D, Scherer S. VoxNet: A 3D convolutional neural network for real-time object recognition[C] //Proc of the 28th IEEE Int Conf on Intelligent Robots and Systems (IROS). Piscataway, NJ: IEEE, 2015: 922−928

    [19]

    Zhou Yin, Tuzel O. VoxelNet: End-to-end learning for point cloud based 3D object detection[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 4490−4499

    [20]

    Graham B, Engelcke M, Laurens V D M. 3D semantic segmentation with submanifold sparse convolutional networks[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 9224−9232

    [21]

    Ben-Shabat Y, Lindenbaum M, Fischer A. 3DmFV: Three-dimensional point cloud classification in real-time using convolutional neural networks[J]. IEEE Robotics and Automation Letters, 2018, 3(4): 3145−3152 doi: 10.1109/LRA.2018.2850061

    [22]

    Liu Zhijian, Tang Haotian, Lin Yujun, et al. Point-voxel CNN for efficient 3D deep learning[C/OL] //Proc of the 33rd Neural Information Processing Systems (NeurIPS). Cambridge, MA: MIT Press, 2019 [2022-06-16]. https://proceedings.neurips.cc/paper/2019/file/5737034557ef5b8c02c0e46513b98f90-Paper.pdf

    [23]

    Meng H Y, Gao Lin, Lai Yukun, et al. VV-Net: Voxel VAE net with group convolutions for point cloud segmentation[C] //Proc of the 17th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 8500−8508

    [24]

    Wang Zongji, Lu Feng. VoxSegNet: Volumetric CNNs for semantic part segmentation of 3D shapes[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(9): 2919−2930 doi: 10.1109/TVCG.2019.2896310

    [25]

    Su Hang, Jampani V, Sun Deqing, et al. SPLATNet: Sparse lattice networks for point cloud processing[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 2530−2539

    [26]

    Rao Yongming, Lu Jiwen, Zhou Jie. Spherical fractal convolutional neural networks for point cloud recognition[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 452−460

    [27]

    Wang Chu, Samari B, Siddiqi K. Local spectral graph convolution for point set feature learning[C] //Proc of the 18th European Conf on Computer Vision (ECCV). Berlin: Springer, 2018: 56−71

    [28]

    Zhang Yingxue, Rabbat M. A graph-CNN for 3D point cloud classification[C] //Proc of the 43rd IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2018: 6279−6283

    [29]

    Te Gusi, Hu Wei, Zheng Amin, et al. RGCNN: Regularized graph CNN for point cloud segmentation[C] //Proc of the 26th ACM Int Conf on Multimedia (ACMMM). New York: ACM, 2018: 746−754

    [30]

    Li Ruoyu, Wang Sheng, Zhu Feiyun, et al. Adaptive graph convolutional neural networks[C] //Proc of the 32nd AAAI Conf on Artificial Intelligence (AAAI). Palo Alto, CA: AAAI, 2018: 3546−3553

    [31]

    Feng Yifan, You Haoxuan, Zhang Zizhao, et al. Hypergraph neural networks[C] //Proc of the 33rd AAAI Conf on Artificial Intelligence (AAAI). Palo Alto, CA: AAAI, 2019: 3558−3565

    [32]

    Simonovsky M, Komodakis N. Dynamic edge-conditioned filters in convolutional neural networks on graphs[C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2017: 29−38

    [33]

    Dominguez M, Dhamdhere R, Petkar A, et al. General-purpose deep point cloud feature extractor[C] //Proc of the IEEE Winter Conf on Applications of Computer Vision (WACV). Piscataway, NJ: IEEE, 2018: 1972−1981

    [34]

    Shen Yiru, Feng Chen, Yang Yaoqing, et al. Mining point cloud local structures by kernel correlation and graph pooling[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 4548−4557

    [35]

    Landrieu L, Simonovsky M. Large-scale point cloud semantic segmentation with superpoint graphs[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 4558−4567

    [36]

    Landrieu L, Boussaha M. Point cloud over-segmentation with graph-structured deep metric learning[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 7432−7441

    [37]

    Wang Lei, Huang Yuchun, Hou Yaolin, et al. Graph attention convolution for point cloud semantic segmentation[C] //Proc of the 32nd IEEE Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 10288−10297

    [38]

    Kang Zhiheng, Li Ning. PyramNet: Point cloud pyramid attention network and graph embedding module for classification and segmentation[C/OL] //Proc of the 32nd Int Conf on Neural Information Processing (ICONIP). Berlin: Springer, 2019 [2022-06-16]. http://ajiips.com.au/papers/V16.2/v16n2_39 − 47.pdf

    [39]

    Wang Yue, Sun Yongbin, Liu Ziwei, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 146:1−12

    [40]

    Ma Yanni, Guo Yulan, Liu Hao, et al. Global context reasoning for semantic segmentation of 3D point clouds[C] //Proc of the IEEE Winter Conf on Applications of Computer Vision (WACV). Piscataway, NJ: IEEE, 2020: 2920−2929

    [41]

    Xu Qiangeng, Sun Xudong, Wu Choying, et al. Grid-GCN for fast and scalable point cloud learning[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2020: 5660−5669

    [42]

    Lei Huan, Akhtar N, Mian A. SegGCN: Efficient 3D point cloud segmentation with fuzzy spherical kernel[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2020: 11608−11617

    [43]

    Lei Huan, Akhtar N, Mian A. Spherical kernel for efficient graph convolution on 3D point clouds[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10): 3664−3680 doi: 10.1109/TPAMI.2020.2983410

    [44]

    Liu Weiping, Sun Jia, Li Wanyi, et al. Deep learning on point clouds and its application: A survey[J]. Sensors, 2019, 19(19): 1−22 doi: 10.1109/JSEN.2019.2925951

    [45]

    Bello S A, Yu Shangshu, Wang Cheng. Review: Deep learning on 3D point clouds[J]. Remote Sensing, 2020, 12(11): 1−34

    [46]

    Li Ying, Ma Lingfei, Zhong Zilong, et al. Deep learning for LiDAR point clouds in autonomous driving: A review[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(8): 3412−3432 doi: 10.1109/TNNLS.2020.3015992

    [47] 李宝,程志全,党岗,等. 3D点云法向量估计综述[J]. 计算机工程与应用,2010,46(23):1−7

    Li Bao, Cheng Zhiquan, Dang Gang, et al. Survey on normal estimation for 3D point clouds[J]. Computer Engineering and Applications, 2010, 46(23): 1−7 (in Chinese)

    [48]

    Nguyen A, Le B. 3D point cloud segmentation: A survey[C] //Proc of the 6th IEEE Conf on Robotics, Automation and Mechatronics (RAM). Piscataway, NJ: IEEE, 2013: 225−230

    [49]

    Zhang Jiaying, Zhao Xiaoli, Chen Zheng, et al. A review of deep learning-based semantic segmentation for point cloud[J]. IEEE Access, 2019, 7: 179118−179133 doi: 10.1109/ACCESS.2019.2958671

    [50]

    Xie Yuxing, Tian Jiaojiao, Zhu Xiaoxiang. Linking points with labels in 3D: A review of point cloud semantic segmentation[J]. IEEE Geoscience and Remote Sensing Magazine, 2020, 8(4): 38−59 doi: 10.1109/MGRS.2019.2937630

    [51] 景庄伟,管海燕,臧玉府,等. 基于深度学习的点云语义分割研究综述[J]. 计算机科学与探索,2021,5(1):1−26 doi: 10.3778/j.issn.1673-9418.2006025

    Jing Zhuangwei, Guan Haiyan, Zang Yufu, et al. Survey of point cloud semantic segmentation based on deep learning[J]. Journal of Frontiers of Computer Science and Technology, 2021, 5(1): 1−26 (in Chinese) doi: 10.3778/j.issn.1673-9418.2006025

    [52]

    Huang Xiaoshui, Mei Guofeng, Zhang Jian, et al. A comprehensive survey on point cloud registration[J]. arXiv preprint, arXiv: 2103.02690, 2021

    [53]

    Wang Haowen, Li Zirui, Gong Jianwei. Sequential point cloud prediction in interactive scenarios: A survey[C] //Proc of the 9th China Automation Congress (CAC). Piscataway, NJ: IEEE, 2021: 3862−3867

    [54] 马帅,刘建伟,左信. 图神经网络综述[J]. 计算机研究与发展,2022,59(1):47−80

    Ma Shuai, Liu Jianwei, Zuo Xin. Survey on graph neural network[J]. Journal of Computer Research and Development, 2022, 59(1): 47−80 (in Chinese)

    [55]

    Hua B S, Tran M K, Yeung S K. Pointwise convolutional neural networks[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 984−993

    [56]

    Li Yangyan, Bu Rui, Sun Mingchao, et al. PointCNN: Convolution on χ-Transformed points[C/OL] //Proc of the 32nd Neural Information Processing Systems (NeurIPS). Cambridge, MA: MIT Press, 2018 [2022-06-16]. https://proceedings.neurips.cc/paper/2018/file/f5f8590cd58a54e94377e6ae2eded4d9-Paper.pdf

    [57]

    Zhang Hua, Ren Kai, Zheng Nanshan, et al. A multiscale convolutional neural network with color vegetation indices for semantic labeling of point cloud[J/OL]. IEEE Geoscience and Remote Sensing Letters, 2022[2022-06-01]. https://doi.org/10.1109/LGRS.2021.3079242

    [58]

    Lan Shiyi, Yu Ruichi, Yu Gang, et al. Modeling local geometric structure of 3D point clouds using Geo-CNN[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 998−1008

    [59]

    Gong Jingyu, Xu Jiachen, Tan Xin, et al. Boundary-aware geometric encoding for semantic segmentation of point clouds[C] //Proc of the 35th AAAI Conf on Artificial Intelligence (AAAI). Palo Alto, CA: AAAI, 2021: 1424−1432

    [60]

    Zhang Zhiyuan, Hua B S, Yeung S K. ShellNet: Efficient point cloud convolutional neural networks using concentric shells statistics[C] //Proc of the 17th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 1607−1616

    [61]

    Lei Huan, Akhtar N, Mian A. Octree guided CNN with spherical kernels for 3D point clouds[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 9623−9632

    [62]

    Wang Pengshuai, Liu Yang, Guo Yuxiao, et al. O-CNN: Octree-based convolutional neural networks for 3D shape analysis[J]. ACM Transactions on Graphics, 2017, 36(4): 72:1−11

    [63]

    Pan Liang, Wang Pengfei, Chew C M. PointAtrousNet: Point atrous convolution for point cloud analysis[J]. IEEE Robotics and Automation Letters, 2019, 4(4): 4035−4041 doi: 10.1109/LRA.2019.2927948

    [64]

    Engelmann F, Kontogianni T, Leibe B. Dilated point convolutions: On the receptive field size of point convolutions on 3D point clouds[C] //Proc of the 37th IEEE Int Conf on Robotics and Automation (ICRA). Piscataway, NJ: IEEE, 2020: 9463−9469

    [65]

    Cui Yunhao, An Yi, Sun Wei, et al. Lightweight attention module for deep learning on classification and segmentation of 3D point clouds[J/OL]. IEEE Transactions on Instrumentation and Measurement, 2021[2022-06-01]. https://doi.org/10.1109/TIM.2020.3013081

    [66]

    Chen Haiwei, Liu Shichen, Chen Weikai, et al. Equivariant point network for 3D point cloud analysis[C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2021: 14514−14523

    [67]

    Dang Jisheng, Yang Jun. HIGCNN: Hierarchical interleaved group convolutional neural networks for point clouds analysis[C] //Proc of the 46th IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2021: 2825−2829

    [68]

    Mao Jiageng, Wang Xiaogang, Li Hongsheng. Interpolated convolutional networks for 3D point cloud understanding[C] //Proc of the 17th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 1578−1587

    [69]

    Nguyen A D, Choi S, Kim W, et al. Statistical convolution on unordered point set[C] //Proc of the 27th IEEE Int Conf on Image Processing (ICIP). Piscataway, NJ: IEEE, 2020: 3468−3472

    [70]

    Thomas H, Qi C R, Deschaud J E, et al. KPConv: Flexible and deformable convolution for point clouds[C] //Proc of the 17th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 6410−6419

    [71]

    Yan Kunping, Hu Qingyong, Wang Hanyun, et al. Continuous mapping convolution for large-scale point clouds semantic segmentation[J/OL]. IEEE Geoscience and Remote Sensing Letters, 2021, 19 [2022-06-01]. https://doi.org/10.1109/LGRS.2021.3107006

    [72]

    Zhang Zhiyuan, Hua B S, Chen Wei, et al. Global context aware convolutions for 3D point cloud understanding[C] //Proc of the 8th Int Conf on 3D Vision (3DV). Piscataway, NJ: IEEE, 2020: 210−219

    [73]

    Yang Yirong, Fan Bin, Liu Yongcheng, et al. Deep space probing for point cloud analysis[C] //Proc of the 25th Int Conf on Pattern Recognition (ICPR). Piscataway, NJ: IEEE, 2021: 10235−10242

    [74]

    Xu Mutian, Ding Runyu, Zhao Hengshuang, et al. PAConv: Position adaptive convolution with dynamic kernel assembling on point clouds[C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2021: 3173−3182

    [75]

    Groh F, Wieschollek P, Lensch H P A. Flex-Convolution (deep learning beyond grid-worlds)[C] //Proc of the 13th Asian Conf on Computer Vision (ACCV). Berlin: Springer, 2018: 105−122

    [76]

    Boulch A. ConvPoint: Continuous convolutions for point cloud processing[J]. Computers and Graphics, 2020, 88: 24−34 doi: 10.1016/j.cag.2020.02.005

    [77]

    Klokov R, Lempitsky V. Escape from cells: Deep kd-networks for the recognition of 3D point cloud models[C] //Proc of the 16th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2017: 863−872

    [78]

    Wang Shenlong, Suo Simon, Ma W C, et al. Deep parametric continuous convolutional neural networks[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 2589−2597

    [79]

    Xu Yifan, Fan Tianqi, Xu Mingye, et al. SpiderCNN: Deep learning on point sets with parameterized convolutional filters[C] //Proc of the 16th European Conf on Computer Vision (ECCV). Berlin: Springer, 2018: 90−105

    [80]

    Hermosilla P, Ritschel T, Vázquez P P, et al. Monte Carlo convolution for learning on nonuniformly sampled point clouds[J]. ACM Transactions on Graphics, 2018, 37(6): 235:1−12

    [81]

    Wu Wenxuan, Qi Zhongang, Li Fuxin. PointConv: Deep convolutional networks on 3D point clouds[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 9613−9622

    [82]

    Wang Fei, Zhang Xing, Jiang Yong, et al. PatchCNN: An explicit convolution operator for point clouds perception[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(4): 726−730 doi: 10.1109/LGRS.2020.2981507

    [83]

    Liu Yongcheng, Fan Bin, Xiang Shiming, et al. Relation-shape convolutional neural network for point cloud analysis[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2019: 8887−8896

    [84]

    Liu Yongcheng, Fan Bin, Meng Gaofeng, et al. DensePoint: Learning densely contextual representation for efficient point cloud processing[C] //Proc of the 17th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 5238−5247

    [85]

    Atzmon M, Haggai M, Lipman Y. Point convolutional neural networks by extension operators[J]. ACM Transactions on Graphics, 2018, 37(4): 71:1−12

    [86]

    Poulenard A, Rakotosaona M J, Ponty Y, et al. Effective rotation-invariant point CNN with spherical harmonics kernels[C] //Proc of the 7th Int Conf on 3D Vision (3DV). Piscataway, NJ: IEEE, 2019: 47−56

    [87]

    Zhang Zhiyuan, Hua B S, Rosen D W, et al. Rotation invariant convolutions for 3D point clouds deep learning[C] //Proc of the 7th Int Conf on 3D Vision (3DV). Piscataway, NJ: IEEE, 2019: 204−213

    [88]

    Thomas H. Rotation-invariant point convolution with multiple equivariant alignments[C] //Proc of the 8th Int Conf on 3D Vision (3DV). Piscataway, NJ: IEEE, 2020: 504−513

    [89]

    Wu Zhirong, Song Shuran, Khosla A, et al. 3D ShapeNets: A deep representation for volumetric shapes[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 1912−1920

    [90]

    Chang A X, Funkhouser T, Guibas L, et al. ShapeNet: An information-rich 3D model repository[J]. arXiv preprint, arXiv: 1512.03012, 2015

    [91]

    Armeni I, Sener O, Zamir A R, et al. 3D semantic parsing of large-scale indoor spaces[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2016: 1534−1543

    [92]

    Dai A, Chang A X, Savva M, et al. ScanNet: Richly-annotated 3D reconstructions of indoor scenes[C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2017: 2432−2443

    [93]

    Hackel T, Savinov N, Ladicky L, et al. SEMANTIC3D. NET: A new large-scale point cloud classification benchmark[J]. Journal of Photogrammetry and Remote Sensing, 2017, IV-1/W1: 91−98

    [94]

    Behley J, Garbade M, Milioto A, et al. SemanticKITTI: A dataset for semantic scene understanding of LiDAR sequences[C] //Proc of the 17th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2019: 9296−9306

    [95]

    Rodriguez D, Huber F, Behnke S. Category-level 3D non-rigid registration from single-view RGB images[C] //Proc of the 33rd IEEE Int Conf on Intelligent Robots and Systems (IROS). Piscataway, NJ: IEEE, 2020: 10617−10624

    [96]

    Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C] //Proc of the 25th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2012: 3354−3361

    [97]

    Fei Ben, Yang Weidong, Chen Wenming, et al. Comprehensive review of deep learning-based 3D point clouds completion processing and analysis[J]. arXiv preprint, arXiv: 2203.03311, 2022

    [98]

    Zhang Yan, Zhao Wenhan, Sun Bo, et al. Point cloud upsampling algorithm: A systematic review[J]. Algorithms, 2022, 15(124): 1−17

    [99]

    Pistilli F, Fracastoro G, Valsesia D, et al. Learning robust graph-convolutional representations for point cloud denoising[J]. IEEE Journal of Selected Topics in Signal Processing, 2021, 15(2): 402−414 doi: 10.1109/JSTSP.2020.3047471

    [100]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C/OL] //Proc of the 31st Neural Information Processing Systems (NIPS). Cambridge, MA: MIT Press, 2017 [2022-06-16]. https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

    [101]

    Han Kai, Wang Yunhe, Chen Hanting, et al. A survey on vision transformer[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(1): 87−110 doi: 10.1109/TPAMI.2022.3152247

    [102]

    Cordonnier J B, Loukas A, Jaggi M. On the relationship between self-attention and convolutional layers[J]. arXiv preprint, arXiv: 1911.03584, 2020

    [103]

    Dong Yihe, Cordonnier J B, Loukas A. Attention is not all you need: Pure attention loses rank doubly exponentially with depth[J]. arXiv preprint, arXiv: 2103.03404, 2021

    [104]

    Srinivas A, Lin T Y, Parmar N, et al. Bottleneck transformers for visual recognition[C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2021: 16519−16529

    [105]

    Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers & distillation through attention[J]. arXiv preprint, arXiv: 2012.12877, 2021

    [106]

    Stéphane d'A, Touvron H, Leavitt M, et al. ConViT: Improving vision transformers with soft convolutional inductive biases[J]. arXiv preprint, arXiv: 2103.10697, 2021

    [107]

    Yuan Kun, Guo Shaopeng, Liu Ziwei, et al. Incorporating convolution designs into visual transformers[C] //Proc of the 18th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2021: 579−588

    [108]

    Zhao Hengshuang, Jiang Li, Jia Jiaya, et al. Point transformer[C] //Proc of the 18th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2021: 16259−16268

  • 期刊类型引用(10)

    1. 秦涛,杜尚恒,常元元,王晨旭. ChatGPT的工作原理、关键技术及未来发展趋势. 西安交通大学学报. 2024(01): 1-12 . 百度学术
    2. 贺鑫,王晓燕,周启香,张文凯. 基于深度学习的眼底血管图像分割研究进展. 计算机系统应用. 2024(03): 12-23 . 百度学术
    3. 王海鹏,高自强,董佳俊,胡军,陈奕帆,丁卫平. 基于粗糙注意力融合机制与Group Transformer的视网膜血管分割网络. 南通大学学报(自然科学版). 2024(01): 28-37+48 . 百度学术
    4. 徐武,沈智方,范鑫豪,刘洋,徐天奇. 改进D-Linknet的眼底视网膜血管分割. 应用科技. 2024(02): 99-104+119 . 百度学术
    5. 张子旭,李嘉莹,栾鹏鹏,彭圆圆. 基于注意力机制的U-Net眼底图像分割算法. 计算机与现代化. 2024(05): 110-114 . 百度学术
    6. 符灵利,邱宇,张新晨. 基于改进U-Net多特征融合的血管分割. 计算机与现代化. 2024(06): 76-82 . 百度学术
    7. 窦全胜,李丙春,刘静,张家源. 基于多方向特征和连通性检测的眼底图像分割. 吉林大学学报(信息科学版). 2024(04): 690-699 . 百度学术
    8. 张文杰,宋艳涛,王克琪,张越. 基于自分块轻量化Transformer的医学图像分割网络. 计算机应用研究. 2024(11): 3502-3508 . 百度学术
    9. 徐光宪,冯春,马飞. 基于UNet的医学图像分割综述. 计算机科学与探索. 2023(08): 1776-1792 . 百度学术
    10. 梁礼明,阳渊,何安军,李仁杰. 跨级可变形Transformer编解码视网膜图像分割算法. 无线电工程. 2023(09): 1990-2001 . 百度学术

    其他类型引用(15)

图(16)  /  表(9)
计量
  • 文章访问数:  329
  • HTML全文浏览量:  82
  • PDF下载量:  140
  • 被引次数: 25
出版历程
  • 收稿日期:  2022-01-28
  • 修回日期:  2022-06-22
  • 网络出版日期:  2023-02-26
  • 刊出日期:  2023-04-17

目录

/

返回文章
返回