点云配准中多维度信息融合的特征挖掘方法

武 越1 苑咏哲1 岳铭煜3 公茂果2 李 豪2 张明阳2 马文萍3 苗启广1

1(西安电子科技大学计算机科学与技术学院 西安 710071)2(西安电子科技大学电子工程学院 西安 710071)3(西安电子科技大学人工智能学院 西安 710071)

摘 要 数据挖掘是使用人工智能等方法在大型数据集中提取隐含潜在信息的过程,为从大量信息中获取有价值的知识提供了有效途径.在使用深度学习解决点云配准任务的过程中,数据挖掘也无处不在.全局特征提取和刚体变换估计是无对应点云配准的2个关键阶段,挖掘隐藏在2个阶段中的丰富信息是点云配准的重要任务之一.然而,最近提出的方法在提取全局特征时容易忽略低维局部特征,导致大量点云信息的丢失,使得后续刚体变换估计阶段求解变换参数时精度无法达到预期.首先,提出了一种基于多维度信息融合的特征挖掘网络,充分挖掘点云中的高维全局和低维局部信息,有效弥补了点云配准的全局特征提取阶段局部特征的缺失.其次,在刚体变换估计阶段使用了对偶四元数估计姿态,其可以在一个公共框架内同时表示旋转和平移,为姿态估计提供紧凑和精确的表示.最后,在ModelNet40数据集上进行的大量实验表明:与现有前沿的无对应点云配准方法相比,提出的方法可以获得更高的精度,同时对噪声具有较强的鲁棒性.

关键词 数据挖掘;特征提取;点云配准;多维度信息融合;对偶四元数

随着三维数据采集技术的快速发展,激光雷达[1-2]、结构光传感器和立体摄像机采集到的点云数据得到了广泛应用.同时,这也使得点云配准、分类、分割等应用引起了广泛关注.三维刚体点云配准是计算机视觉和机器人学[3-4]等许多重要应用中的一项关键任务,如自动驾驶[5-6]、手术导航和同步定位与构图(simultaneous localization and mapping, SLAM)[7]等.点云配准的目的是找到一个刚性变换将一个点云与另一个点云对齐.然而,点云固有的结构缺陷给其直接应用于深度学习体系带来了很大的困难.PointNet[8]及其变体的出现给点云提供了结构化表示方法,可以克服直接在深度学习中使用点云的困难,并且极大地提高了处理速度.

传统的点云配准方法,例如迭代最近点(iterative closest point, ICP)算法[9]以及基于ICP的衍生算法[10-14],它们通过寻找2个点云的对应点关系来估计刚体变换[15].但是,它们对初始化极其敏感,配准通常会在寻找最优解的过程中陷入局部最优而失败[16].近年来,研究者们提出了许多基于PointNet的深度学习的无对应点云配准方法,它们通过PointNet提取全局特征描述符,为后续刚体变换阶段提供获取精确变换参数的基础.然而,这些深度学习方法在提取全局特征时容易忽略低维局部特征,导致大量点云信息的丢失,使得后续刚体变换估计阶段求解变换参数时精度无法达到预期[17-21].

数据挖掘是使用人工智能等方法在大型数据集中提取隐含潜在信息的过程.数据挖掘已经广泛存在于人工智能的应用当中,例如计算机视觉、自然语言处理和推荐系统等.深度学习作为人工智能领域中一种基于对大数据进行表征学习的方法,其可以自动从大量信息中获取有价值的知识,充分挖掘隐藏在大数据中的丰富信息,从而完成如分类、回归等特定任务.本文将数据挖掘应用于点云配准当中,通过深度学习设计了基于多维度信息融合的特征挖掘方法,充分挖掘点云中的高维全局和低维局部信息,有效弥补了点云配准的全局特征提取阶段局部特征的缺失.

本文的主要贡献包括3个方面:

1) 提出了一种多维度信息融合网络(multi-dimensional information fusion network, MIFNet),充分挖掘点云中的高维全局和低维局部信息,有效弥补了点云配准的全局特征提取阶段局部特征的缺失;

2) 为了充分挖掘变换信息,在刚体变换估计阶段使用了深度神经网络拟合对偶四元数的刚体变换参数,其可以在一个公共框架内同时表示旋转和平移,为姿态估计提供紧凑和精确的表示;

3) 在ModelNet40数据集上进行了大量实验,结果表明:与现有无对应前沿的无对应点云配准方法相比,我们的方法可以获得更高的精度,同时对噪声具有较强的鲁棒性.

1 相关工作

目前的文献中描述了许多先进的点云配准方法.经典的传统点云配准方法需要良好的初始变换,并在初始点附近收敛到局部最小值.最有代表性的方法是ICP算法,该算法从初始变换开始,迭代交替求解2个子问题:在当前变换下寻找最接近的点作为对应点以及通过奇异值分解(singular value decomposition, SVD)找到对应计算的最优变换.尽管ICP可以完成较高精度的配准,但它容易受到初始扰动的影响.近年来,人们基于ICP提出了各种衍生的变体,可以改善ICP的缺陷,提高配准精度.然而,仍存在一些基本的缺点.首先,它们强烈依赖于初始化.其次,由于它们不可微分的性质,很难将它们整合到深度学习系统中.

PointNet是第1个直接将点云应用在深度学习系统中的方法,它通过对称函数解决了点云的无序性.PointNet为下游任务提供了一个非常有用的概念,用于提取点云的特征,并激发了研究者们使用深度学习解决点云配准问题的兴趣.基于深度学习的方法通常分为基于对应的方法和无对应的方法.基于对应关系的方法占据了相当大的比例,如CorsNet[22],DeepVCP[23]和3DFeat Net[24-26]等.而基于无对应的方法较少,是目前研究的一个热点.无对应方法通过计算2个点云的全局特征之间的差异来获得刚体变换参数.与传统方法和基于对应的方法相比,该方法节省了搜索对应点的时间.例如PointNetLK[27]和PCRNet[28]在内的无对应点云配准方法使用PointNet作为特征提取器[29].PointNetLK通过PointNet计算全局特征描述符,并迭代使用逆合成公式和光流(Lucas-Kanade, LK)[30-31]算法最小化描述符之间的距离以实现配准.PCRNet使用数据驱动技术代替PointNetLK中的逆合成公式和LK算法进行特征对齐,该算法对训练中未见过的形状可以产生良好的泛化能力[32].然而,这些方法在特征提取过程中忽略了局部信息,导致大量点云信息的丢失,因此我们本文针对此问题进行了改进.

另外,在刚体变换估计阶段,有许多方法可以表示具有3个自由度的刚体的旋转,例如旋转矩阵、旋转向量和欧拉角[33].旋转矩阵由9个变量表示,这种方法表示是冗余的.旋转矢量和欧拉角是紧凑的,但它们存在万向锁问题[34],并且容易出现奇异性.为了解决这个问题,Hamilton在1866年提出了一个扩展复数,并将其命名为四元数[35],它可以将复数扩展到三维空间.四元数完美地解决了旋转参数的紧凑性和奇异性问题.然而,在刚体运动中,四元数只具有表示旋转的能力[36].因此,我们使用将四元数和对偶数结合的对偶四元数[37],它可以在一个公共框架内表示平移和旋转.每个对偶四元数有2个四元数:实部和对偶部[38].实部仅表示旋转,对偶部表示平移和旋转.在我们设计的方法中,对偶四元数由8维向量表示,在第2节将给出详细推导.

2 使用对偶四元数进行刚体变换估计

本节我们主要介绍对偶四元数进行刚体变换估计的理论保证.四元数只能表示旋转,而对偶四元数可以同时表示旋转和平移.我们从使用四元数表示旋转的有效性出发,解释对偶四元数的有效性以及为什么它可以同时表示旋转和平移.

四元数可以看作是复数的一个扩展,其中复数标量由3个标量和3个复数单位(i,j,k)取代,它们组成了四元数:

Q=(q0,q)=q0+q1i+q2j+q3k

(1)

其中,q0为实部,q=(q1,q2,q3)为虚部[39-40].另外,我们定义四元数的模:

(2)

以及共轭四元数:

(3)

满足的四元数称为单位四元数.假设三维空间中的一个点P,它由四元数P=q1i+q2j+q3k描述,我们可以使用具有4个参数(q0,q1,q2,q3)的单位四元数Qu表示旋转,并得到新的点[41]:

(4)

对偶四元数由2个四元数QQε以及对偶单元ε组成,它可以同时表示旋转和平移:

Qd=Q+εQε.

(5)

我们定义对偶四元数的共轭:

(6)

我们使用单位四元数R=(r0,r)=r0+r1i+r2j+r3k和虚四元数T=(0,t)=t1i+t2j+t3k来表示转换[42].

(7)

其中,A=t1r1+t2r2+t3r3B=t1r0-t3r2+t2r3C=t2r0+t3r1-t1r3M=t3r0-t2r1+t1r2.与式(4)的旋转四元数类似,对于点P=q1i+q2j+q3k,四元数通过扩展为对偶四元数Pd=1+εP表示旋转和平移,并且可以获得变换后的点:

(8)

通过上述推导,我们可知使用对偶四元数表示刚体变换中旋转和平移是可行的,其需要8个参数,其中(r0,r1,r2,r3)表示旋转,(A,B,C,M)表示平移和旋转.再次需要强调的是,对偶四元数可以同时表示旋转和平移.本文中,对偶四元数将用于刚体变换估计阶段,即使用多维度信息融合进行特征挖掘后,使用深度神经网络拟合对偶四元数的变换参数进行配准.在后续实验中,我们验证了采用对偶四元数进行变换参数估计的有效性.

3 基于多维度信息融合的点云配准

本节我们将系统介绍本文方法的详细流程.一个点云可以被表示为一组3D点的集合{Ppi|i=1,2,…,N}⊂3,其中每个点pi表示为一个由坐标构成的3D向量.我们分别用PTPS表示模板点云和源点云.我们的目的是寻找到一个最优的变换矩阵G∈SE(3),使得PTPS完美对齐.刚体在三维空间的运动由旋转R和平移T描述.简单的变换参数估计可以使用欧拉角、齐次矩阵或四元数来表示.然而,欧拉角容易出现奇异性,齐次矩阵和四元数不能同时表示旋转R和平移T.因此,我们在点云配准中使用对偶四元数进行了变换参数估计.对偶四元数的优点在于,在一个公共框架内,仅使用8个参数就可以组合表示旋转和平移.特别是,它们也可以用矩阵表示,这使它成为一种高效的计算工具.我们在第2节中描述了对偶四元数及其相关推导.为了准确获得对偶四元数的8个参数,我们设计了MIFNet,其中包含了一个特征提取网络和一个由全连接层(full-connected, FC)构成的刚体变换估计网络.其中特征提取部分可以弥补局部特征的不足,充分挖掘点云中的高维全局和低维局部信息,有效弥补了点云配准的全局特征提取阶段局部特征的缺失,为后续刚体变换估计提供准确的特征表示,以提升参数估计的精度,更多细节见3.1节.在3.2节中描述了关于本文方法的损失函数.

3.1 网络的详细架构

点云数据是高度非结构化并具有排列不变性的.目前研究者们提出了许多提取点云全局特征的方法,如PointNetLK和PCRNet,它们为获取包含几何信息的全局特征提供了一些创新性的方法.同时,它们允许将原始点云直接作为网络输入,并可以嵌入到更大规模的网络中.但是,它们没有考虑到点云提取特征过程中的局部特征,不能充分利用点云信息.为了解决现有方法中的这些问题,我们提出了MIFNet.图1显示了MIFNet的体系结构.该系统由特征提取网络和基于对偶四元数的刚体变换估计网络2部分组成.图2显示了提出的特征提取网络架构.

Fig. 1 Illustration of MIFNet
图1 MIFNet示意图

Fig. 2 Illustration of architecture of global features extraction
图2 全局特征提取网络架构示意图

在特征提取网络中,我们为点云中的每个点提取特征.随着网络层数的加深,低维局部信息无法复用导致特征无法充分利用,可能使最后提取到的全局特征忽略了原始点云的某些信息.此外,为每个点进行特征提取时,点与点之间的信息相互独立,无法进行信息交互,我们为此设计了局部特征(local feature, LF)单元将低维局部特征输入到下一层.LF单元将各个维度的局部信息反馈给下一层的每个点,充分利用了各个维度的局部信息,而且每个点都会拥有其他N-1个点的特征信息.在提取高维全局特征时,相邻层之间使用LF单元会得到更多的点云低维局部信息,并且加强了信息交互,从而实现多维度信息融合.

LF单元由3个大小分别为64,128,D的多层感知器(multi-layer perceptions, MLPs)组成.输出的维数为D,与输入的维度相同.然后,利用对称的最大池化函数得到一个大小为1×D的特征向量.最后,在LF单元中,将特征向量重复N次并拼接到后续层中每个点的特征上.特征提取网络由5个MLPs组成,大小分别为64,64,64,128,1024.使用LF单元后,各层特征尺寸分别扩展到64,128,128,192,1152.如图1所示,使用特征提取网络和对称的最大池化函数提取全局特征.

提取全局特征后,将这些全局特征拼接并输入到由FC构成的刚体变换估计网络.FC层有大小为1024,1024,512,512,256的5个隐藏层和一个8维向量的输出层,该8维向量表示估计的变换矩阵G,其中n为当前迭代次数.根据第2节的分析,此8维向量对应了对偶四元数表示变换需要的8个参数(r0,r1,r2,r3,A,B,C,M).因此我们可以使用刚体变换网络学习到的8个参数进行旋转矩阵R和平移向量T表示:

R=

(9)

(10)

最后,我们使用一个迭代方案来更新PS.在第一次迭代后,我们根据RT可以得到变换矩阵G

(11)

在后续的迭代中,使用G对源点云进行变换,将更新后的源点云作为MIFNet的输入.经过n次迭代,结合每次迭代中估计的变换矩阵,可以得到最终估计的整体变换:

Gest=G(nG(n-1)×…×G(1).

(12)

3.2 优 化

针对我们的任务,我们选择了考虑对应点之间的损失的倒角距离损失:

(13)

以及从全局变换角度考虑的刚性变换的损失:

(14)

其中,Gest为预测的变换矩阵,Ggt为真实的变换矩阵.表示F范数.我们针对L2添加了超参数λ,最终的损失函数设置为

L=L1+λL2.

(15)

我们将在后续实验中讨论超参数λ的最优值,当模版点云与源点云完全配准时,L为0.

4 实 验

本节我们通过在ModelNet40数据集上评估提出方法的有效性.我们分别证明了所提出方法的准确性和对噪声的鲁棒性.我们将本方法与ICP,PointNetLK,CorsNet,DirectNet和PCRNet进行了比较.我们使用真实变换与网络预测变换之间的均方根误差(root mean squared error, RMSE)作为评价指标.需要指出的是,如果配准结果是完美的,则RMSE=0.

4.1 实验设置

在我们的工作中,使用ModelNet40数据集,共9 840个样例来训练我们的网络.ModelNet40包含40个不同对象类别,共12 000多个计算机辅助设计模型,例如飞机、椅子、人或桌子.网络训练了200代,使用10-3的学习率和0.7的指数衰减率,批量大小是32.迭代次数n=2.为了防止过多的变换信息影响点之间的对应关系,我们设置了一个比例损失因子λ来补偿这种不平衡,从而得到组合目标函数.使用Adam优化器更新网络参数.

4.2 最优的超参数λ

我们讨论了损失函数L中超参数λ的最优值.首先,我们优先说明为什么在损失函数的L2一项中添加权重项,并将权重范围的值设置得明显小于L1一项.

我们在第4.1节的基础上,对于不同的损失函数我们进行了实验,实验结果如表1所示.我们可以发现,单独使用某项损失函数时,配准效果并不如两者的组合,这是因为我们设置的损失函同时考虑了局部对应点关系以及全局变换,使得优化效果更佳.此外,我们还可以发现,单独使用L2作为损失函数的效果明显要比L1差很多,因此,我们在损失函数中为L2添加权重项,并将其设置为超参数,使其值显著小于L1,降低其对总体优化的影响.因此,我们设定在0.001 ~ 0.01范围内寻找性能最好的λ.

Table 1 Registration Error Using Different Loss Functions
表1 使用不同损失函数的配准误差

损失函数旋转RMSE平移RMSEL12.64150.0015L23.60450.0693L(λ=0.007)2.52570.0014

注:黑体数值表示最好的性能.

结果如图3所示.结果表明,当λ=0.007时,平移和旋转的RMSE可以同时达到最优值.因此,后续实验均在λ=0.007的条件下进行.

Fig. 3 Registration results with different values of λ
图3 不同λ值时的配准结果

4.3 和现有方法比较

为了改进我们提出方法的性能,我们将MIFNet与ICP,PointNetLK,DirectNet,CorsNet和PCRNet进行了比较.在实验中,我们保留了所有对比方法中的实验设置.表2给出了各方法的性能评价结果.结果表明:我们所提出的网络MIFNet在达到了最高的精度.此外,我们发现,在无对应的点云配准方法中,我们的方法可以在较少的迭代下产生卓越的性能.为了更清晰地展示我们所提出方法的效果,我们选取了9个比较有代表性类别的可视化结果,如图4所示.

Table 2 Comparison Between the Proposed Method and the State-of-the-Art Methods
表2 提出方法和先进方法的对比

方法旋转RMSE平移RMSE有无对应迭代次数ICP[9]46.46280.2614有10PointNetLK[27]14.47960.0169无10DirectNet[22]19.47910.0122无1CorsNet[22]16.23560.0070有1PCRNet[28]3.88370.0064无8MIFNet2.52570.0014无2

注:黑体数值表示最好的性能.

Fig. 4 A part of visual registration results of representative categories on ModelNet40
图4 ModelNet40部分具有代表性类别的可视化配准结果

4.4 网络泛化性研究

为了验证网络的泛化性,即对于未看见过的类别的配准效果.我们通过使用不同的类别进行训练和测试来评估所提出的网络结构.我们将ModelNet40分为2部分进行训练和测试.每个部分有20个类别,每个类别是不同的.测试部分的类别和训练部分的类别没有重合.表3给出了各方法的性能评价结果.结果表明,即使在以前从未见过的类别中,MIFNet仍然可以取得更好的性能.

Table 3 Comparison Between the Proposed Method and the State-of-the-Art Methods on Different Categories When Training and Testing
表3 在不同类别上训练和测试时提出方法和先进 方法的对比

方法旋转RMSE平移RMSE有无对应迭代次数ICP[9]45.80160.2837有10PointNetLK[27]21.08660.0353无10DirectNet[22]20.83100.0198无1CorsNet[22]19.46100.0229有1PCRNet[28]4.53070.0042无8MIFNet3.09660.0031无2

注:黑体数值表示最好的性能.

4.5 高斯噪声

为了探索我们的网络对噪声的鲁棒性,我们在源点云上进行了高斯噪声的实验.对于源点云中的每个点,使用来自高斯分布的噪声,均值为0,标准差为0.04.我们和带有噪声的ICP,PointNetLK和PCRNet方法进行比较.确保数据集具有相同的源点云和模板点云对,以便进行公平的比较.图5显示了最终结果,横轴代表使得变换估计成功的最大旋转误差(角度制),纵轴代表实验成功的比率.在这个实验中,我们使用受试者工作特性曲线(receiver operating characteristic curve, ROC)来评估每种方法的质量,并使用ROC曲线下的面积(area under curve, AUC)作为度量标准.AUC值越高,网络的性能越好.我们观察到,MIFNet方法的AUC明显高于ICP,PCRNet和PointNetLK方法,这意味着我们的方法对高斯噪声有更强的鲁棒性.

Fig. 5 Experimental results of Gaussian noise
图5 高斯噪声的实验结果

4.6 消融实验

为了探索我们提出方法的有效性,我们分别对特征提取部分和使用对偶四元数进行变换参数估计部分进行了消融实验.其中,特征提取部分使用我们提出的多维度信息融合方法与PointNet进行对比,变换参数估计部分使用对偶四元数与四元数进行对比,经过不同的组合,结果如表4所示,可见,当使用多维度信息融合与对偶四元数进行配准时效果最佳,这也验证了实验的正确性和有效性.

Table 4 Ablation Studies of Each Part
表4 每个部分的消融实验

组合旋转RMSE平移RMSEPointNet+四元数3.88370.0064多维度信息融合+四元数2.63600.0029PointNet+对偶四元数2.67490.0067本文提出的方法2.52570.0014

注:黑体数值表示最好的性能.

5 结 论

本文从定性和定量2方面验证了我们提出方法的优越性.我们在ModelNet40数据集上验证了所提出的网络——MIFNet的有效性,并比较了5种现有先进方法来说明其优越性.本文提出了一种基于多维度信息融合的特征提取网络和对偶四元数的刚体变换估计网络点云配准框架.我们的方法可以直接将点云作为输入.该网络弥补了现有大多数方法无法充分利用局部特征的不足,并使用对偶四元数估计刚性变换.与传统的点云配准方法相比,我们的方法不需要寻找点云的对应关系,并且对噪声有很强的鲁棒性.与其他无对应点云配准方法相比,该框架可通过更少次数的迭代实现更高的精度.我们认为,考虑局部特征的无对应点云配准方法是有价值的.未来的工作将涉及更多的多维度以及多尺度等网络架构,以便集成到更大的深度神经网络系统中进行点云配准任务.

参考文献

[1]Zhang Zhengyou. Microsoft kinect sensor and its effect[J]. IEEE Multimedia, 2012, 19(2): 4-10

[2]Wang Han, Wang Chen, Chen Chunlin, et al. F-loam: Fast lidar odometry and mapping[C] //Proc of IEEE/RSJ Int Conf on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2021: 4390-4396

[3]Guevara J, Gené-Mola J, Gregorio E, et al. 3D spectral graph wavelet point signatures in pre-processing stage for mobile laser scanning point cloud registration in unstructured orchard environments[J]. IEEE Sensors Journal, 2021, 22(2): 1720-1728

[4]Farrens D L, Altenbach C, Yang Ke, et al. Requirement of rigid-body motion of transmembrane helices for light activation of rhodopsin[J]. Science, 1996, 274(5288): 768-770

[5]Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? the kitti vision benchmark suite[C] //Proc of IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3354-3361

[6]Lü Zhuo, Yao Zhicheng, Jia Yuxiang, et al. A heterogeneous approach for 3D object detection[J]. Journal of Computer Research and Development, 2021, 58(12): 2748-2759 (in Chinese)

(吕卓, 姚治成, 贾玉祥, 等. 3D物体检测的异构方法[J]. 计算机研究与发展, 2021, 58(12): 2748-2759)

[7]Karimi M, Oelsch M, Stengel O, et al. Lola-slam: Low-latency lidar sham using continuous scan slicing[J]. IEEE Robotics and Automation Letters, 2021, 6(2): 2248-2255

[8]Qi C R, Su Hao, Mo K, et al. PointNet: Deep learning on point sets for 3D Classification and segmentation[C] //Proc of IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 652-660

[9]Besl P J, McKay N D. A method for registration of 3-D shapes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1992, 14(2): 239-256

[10]Pomerleau F, Colas F, Siegwart R, et al. Comparing ICP variants on real-world data sets[J]. Autonomous Robots, 2013, 34(3): 133-148

[11]Yang Jiaolong, Li Hongdong, Campbell D, et al. Go-ICP: A globally optimal solution to 3D ICP point-set registration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(11): 2241-2254

[12]Bouaziz S, Tagliasacchi A, Pauly M. Sparse iterative closest point[C] //Proc of the Computer Graphics Forum. Oxford, UK: Blackwell Publishing Ltd, 2013: 113-123

[13]Fitzgibbon A W. Robust registration of 2D and 3D point sets[J]. Image and Vision Computing, 2003, 21(13/14): 1145-1153

[14]Rusinkiewicz S. A symmetric objective function for ICP[J]. ACM Transactions on Graphics, 2019, 38(4): 1-7

[15]Zhang Zhiyuan, Dai Yuchao, Sun Jiadai. Deep learning based point cloud registration: An overview[J]. Virtual Reality & Intelligent Hardware, 2020, 2(3): 222-246

[16]Rusinkiewicz S, Levoy M. Efficient variants of the ICP algorithm[C] //Proc of Int Conf on 3-D Digital Imaging and Modeling. Piscataway, NJ: IEEE, 2001: 145-152

[17]Rusu R B, Blodow N, Beetz M. Fast point feature histograms for 3D registration[C] //Proc of IEEE Int Conf on Robotics and Automation. Piscataway, NJ: IEEE, 2009: 3212-3217

[18]Lee J, Kim S, Cho M, et al. Deep hough voting for robust global registration[C] //Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 15994-16003

[19]Maturana D, Scherer S. Voxnet: A 3D convolutional neural network for real-time object recognition[C] //Proc of IEEE/RSJ Int Conf on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2015: 922-928

[20]Ma Zhengfei, Liu Bo, Zhou Fugen, et al. Point reg net: Invariant features for point cloud registration using in image-guided radiation therapy[J]. Journal of Computer and Communications, 2018, 6(11): 116-125

[21]Wang Yue, Sun Yongbin, Liu Ziwei, et al. Dynamic graph cnn for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 1-12

[22]Kurobe A, Sekikawa Y, Ishikawa K, et al. CorsNet: 3D point cloud registration by deep neural network[J]. IEEE Robotics and Automation Letters, 2020, 5(3): 3960-3966

[23]Lu Weixin, Wan Guowei, Zhou Yao, et al. DeepVCP: An end-to-end deep neural network for point cloud registration[C] //Proc of the IEEE/CVF Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 12-21

[24]Yew Z J, Lee G H. 3DFeat-Net: Weakly supervised local 3D features for point cloud registration[C] //Proc of the European Conf on Computer Vision. Berlin: Springer, 2018: 607-623

[25]Qi C R, Yi L, Su H, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C] //Proc of the Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2017: 5099-5108

[26]Wu Zhirong, Song Shuran, Khosla A, et al. 3D ShapeNets: A deep representation for volumetric shapes[C] //Proc of IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1912-1920

[27]Aoki Y, Goforth H, Srivatsan R A, et al. PointNetLK: Robust & efficient point cloud registration using PointNet[C] //Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 7163-7172

[28]Sarode V, Li Xueqian, Goforth H, et al. PCRNet: Point cloud registration network using PointNet encoding[OL]. [2021-12-24]. https://arxiv.org/abs/1908.07906

[29]Sarode V, Li Xueqian, Goforth H, et al. One framework to register them all: PointNet encoding for point cloud alignment[OL]. [2021-12-24]. https://arxiv.org/abs/1912.05766

[30]Lucey S, Navarathna R, Ashraf A B, et al. Fourier lucas-kanade algorithm[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012: 35(6): 1383-1396

[31]Yang Heng, Shi Jingnan, Carlone L. Teaser: Fast and certifiable point cloud registration[J]. IEEE Transactions on Robotics, 2021, 37(2): 314-333

[32]Mehra R, Tripathi P, Sheffer A, et al. Visibility of noisy point cloud data[J]. Computers & Graphics, 2010, 34(3): 219-230

[33]Kendall A, Cipolla R. Geometric loss functions for camera pose regression with deep learning[C] //Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5974-5983

[34]Hemingway E G, O’Reilly O M. Perspectives on Euler angle singularities, gimbal lock, and the orthogonality of applied forces and applied moments[J]. Multibody System Dynamics, 2018, 44(1): 31-56

[35]Shen W, Zhang B, Huang S, et al. 3D-rotation-equivariant quaternion neural networks[C] //Proc of the European Conf on Computer Vision. Berlin: Springer, 2020: 531-547

[36]Hartley R, Trumpf J, Dai Yuchao, et al. Rotation averaging[J]. International Journal of Computer Vision, 2013, 103(3): 267-305

[37]Thomas F. Approaching dual quaternions from matrix algebra[J]. IEEE Transactions on Robotics, 2014, 30(5): 1037-1048

[38]Pöppelbaum J, Schwung A. Predicting rigid body dynamics using dual quaternion recurrent neural networks with quaternion attention[OL]. [2021-12-25]. https://arxiv.org/abs/2011.08734

[39]Xu Jiafeng, Halse K H. Dual quaternion variational integrator for rigid body dynamic simulation[OL]. [2021-12-24]. https://arxiv.org/abs/1611.00616

[40]Filipe N, Tsiotras P. Simultaneous position and attitude control without linear and angular velocity feedback using dual quaternions[C] //Proc of American Control Conf. Piscataway, NJ: IEEE, 2013: 4808-4813

[41]Kenwrigth B. Inverse kinematics with dual-quaternions, exponential-maps, and joint limits[J]. International Journal on Advances in Intelligent Systems, 2013, 6(1): 53-65

[42]Gui Haichao, Wang Yong, Su Wenjie. Hybrid global finite-time dual-quaternion observer and controller for velocity-free spacecraft pose tracking[J]. IEEE Transactions on Control Systems Technology, 2020, 29(5): 2129-2141Wu Yue, born in 1988. PhD, associate professor. Senior member of CCF. His main research interests include computer vision, image processing and pattern recognition, theory and application of computational intelligence.

Feature Mining Method of Multi-Dimensional Information Fusion in Point Cloud Registration

Wu Yue1, Yuan Yongzhe1, Yue Mingyu3, Gong Maoguo2, Li Hao2, Zhang Mingyang2, Ma Wenping3, and Miao Qiguang1

1(School of Computer Science and Technology, Xidian University, Xian 710071)2(School of Electronic Engineering, Xidian University, Xian 710071)3(School of Artificial Intelligence, Xidian University, Xian 710071)

Abstract Data mining is the process of extracting hidden and potential information in large datasets by artificial intelligence and other methods, which provides an effective way to obtain valuable knowledge from a large amount of information. Data mining is omnipresent in the process of solving point cloud registration task by deep learning. Extracting global features and estimating rigid body transformation are two key stages of corresponding-free point cloud registration. Mining abundant information hidden in two stages is one of the important tasks of point cloud registration. However, recently proposed methods are easy to ignore low-dimensional local features when extracting global features, resulting in the loss of numerous point cloud information, which makes the accuracy of solving transformation parameters in the subsequent rigid body transformation estimation stage unable to reach the expectation. Firstly, a features mining network based on multi-dimensional information fusion is devised, which fully excavates the high-dimensional global information and low-dimensional local information in point cloud, and effectively offsets the lack of local features in the global feature extraction stage of point cloud registration. Secondly, dual quaternion is utilized to estimate pose in the rigid body transformation estimation stage, which can represent rotation and translation simultaneously within a common framework and provide a compact and precise representation for pose estimation. Finally, extensive experiments on ModelNet40 dataset are conducted. The results illustrate that, compared with the existing corresponding-free point cloud registration methods, the proposed method can obtain higher accuracy, while being highly robust with respect to noise.

Key words data mining; features extraction; point cloud registration; multi-dimensional information fusion; dual quaternion

(ywu@xidian.edu.cn)

中图法分类号 TP183

收稿日期2022-01-09;修回日期:2022-04-15

基金项目广东省重点领域研发计划项目(2020B090921001);国家自然科学基金项目(62036006);陕西省自然科学基础研究计划项目(2022JM-327);中国人工智能学会-华为MINDSPORE学术奖励基金项目

This work was supported by the Key-Area Research and Development Program of Guangdong Province (2020B090921001), the National Natural Science Foundation of China (62036006), the Natural Science Basic Research Plan in Shaanxi Province of China (2022JM-327), and the CAAI-Huawei MINDSPORE Academic Open Fund.

通信作者公茂果(gong@ieee.org)

DOI:10.7544/issn1000-1239.20220042

作者贡献声明:武越和苑咏哲为共同第一作者提出了算法思路并负责初稿写作;岳铭煜负责文献整理并提供论文思路;公茂果提供研究基金和科学问题;李豪和张明阳负责实验设计与结果分析;马文萍负责形式化理论和论文审查;苗启广提供实验方法和论文思路.

武 越,1988年生.博士,副教授.CCF高级会员.主要研究方向为计算机视觉、图像处理和模式识别以及计算智能理论与应用.

Yuan Yongzhe, born in 1998. PhD candidate. Student member of CCF. His main research interests include deep learning and computer vision.

苑咏哲,1998年生.博士研究生.CCF学生会员.主要研究方向为深度学习和计算机视觉.

Yue Mingyu, born in 1998. Master. Student member of CCF. Her main research interests include deep learning and computer vision.

岳铭煜,1998年生.硕士,CCF学生会员.主要研究方向为深度学习和计算机视觉.

Gong Maoguo, born in 1977. PhD, professor. Senior member of CCF. His main research interests include theory and method of com-putational intelligence and remote sensing intelligent system.

公茂果,1979年生.博士,教授,CCF高级会员.主要研究方向为计算智能理论与方法和遥感智能系统.

Li Hao, born in 1990. PhD, associate professor. Professional member of CCF. His main research interests include multi objective optimization and machine learning.

李 豪,1990年生.博士,副教授,CCF专业会员.主要研究方向为多目标优化和机器学习.

Zhang Mingyang, born in 1988. PhD, associate professor. Professional member of CCF. His main research interests include remote sensing image processing and machine learning.

张明阳,1988年生.博士,副教授,CCF专业会员.主要研究方向为遥感影像处理和机器学习.

Ma Wenping, born in 1981. PhD, professor. Professional member of CCF. Her main research interests include natural computing and intelligent image processing and remote sensing image processing based on deep learning.

马文萍,1981年生.博士,教授,CCF专业会员.主要研究方向为自然计算与智能图像处理和基于深度学习的遥感影像处理.

Miao Qiguang, born in 1972. PhD, professor. Distinguished member of CCF. His main research interests include computer vision and big data analysis.

苗启广,1972年生.博士,教授.CCF杰出会员.主要研究方向为计算机视觉和大数据分析.