Processing math: 30%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于孪生空间的单目图像目标位姿一体化标注方法

李聪亮, 孙士杰, 张朝阳, 刘泽东, 雷琪, 宋焕生

李聪亮, 孙士杰, 张朝阳, 刘泽东, 雷琪, 宋焕生. 基于孪生空间的单目图像目标位姿一体化标注方法[J]. 计算机研究与发展, 2023, 60(11): 2671-2680. DOI: 10.7544/issn1000-1239.202220383
引用本文: 李聪亮, 孙士杰, 张朝阳, 刘泽东, 雷琪, 宋焕生. 基于孪生空间的单目图像目标位姿一体化标注方法[J]. 计算机研究与发展, 2023, 60(11): 2671-2680. DOI: 10.7544/issn1000-1239.202220383
Li Congliang, Sun Shijie, Zhang Zhaoyang, Liu Zedong, Lei Qi, Song Huansheng. Twin Space Based Monocular Image Object Pose All-in-One Labeling Method[J]. Journal of Computer Research and Development, 2023, 60(11): 2671-2680. DOI: 10.7544/issn1000-1239.202220383
Citation: Li Congliang, Sun Shijie, Zhang Zhaoyang, Liu Zedong, Lei Qi, Song Huansheng. Twin Space Based Monocular Image Object Pose All-in-One Labeling Method[J]. Journal of Computer Research and Development, 2023, 60(11): 2671-2680. DOI: 10.7544/issn1000-1239.202220383
李聪亮, 孙士杰, 张朝阳, 刘泽东, 雷琪, 宋焕生. 基于孪生空间的单目图像目标位姿一体化标注方法[J]. 计算机研究与发展, 2023, 60(11): 2671-2680. CSTR: 32373.14.issn1000-1239.202220383
引用本文: 李聪亮, 孙士杰, 张朝阳, 刘泽东, 雷琪, 宋焕生. 基于孪生空间的单目图像目标位姿一体化标注方法[J]. 计算机研究与发展, 2023, 60(11): 2671-2680. CSTR: 32373.14.issn1000-1239.202220383
Li Congliang, Sun Shijie, Zhang Zhaoyang, Liu Zedong, Lei Qi, Song Huansheng. Twin Space Based Monocular Image Object Pose All-in-One Labeling Method[J]. Journal of Computer Research and Development, 2023, 60(11): 2671-2680. CSTR: 32373.14.issn1000-1239.202220383
Citation: Li Congliang, Sun Shijie, Zhang Zhaoyang, Liu Zedong, Lei Qi, Song Huansheng. Twin Space Based Monocular Image Object Pose All-in-One Labeling Method[J]. Journal of Computer Research and Development, 2023, 60(11): 2671-2680. CSTR: 32373.14.issn1000-1239.202220383

基于孪生空间的单目图像目标位姿一体化标注方法

基金项目: 国家自然科学基金青年科学基金项目 (62006026);国家自然科学基金面上项目(62072053);中央高校基本科研业务费专项资金(300102241202, 300102241304);长安大学研究生科研创新实践项目(300103722035)
详细信息
    作者简介:

    李聪亮: 1998年生. 硕士研究生. CCF学生会员. 主要研究方向为深度学习、多目标位姿估计、相机标定

    孙士杰: 1989年生. 博士,硕士生导师. 主要研究方向为多目标检测跟踪、3维交通重建及多目标位姿估计

    张朝阳: 1984年生. 博士,讲师,硕士生导师. 主要研究方向为模式识别、 图像处理、 3维交通重建

    刘泽东: 1999年生. 硕士研究生. 主要研究方向为深度学习、 自动相机标定

    雷琪: 1994年生. 博士研究生. 主要研究方向为深度学习、多目标检测跟踪

    宋焕生: 1964年生. 博士,教授,博士生导师. 主要研究方向为图像和交通视频处理、智能交通

    通讯作者:

    孙士杰(shijieSun@chd.edu.cn

  • 中图分类号: TP391

Twin Space Based Monocular Image Object Pose All-in-One Labeling Method

Funds: This work was supported by the National Natural Science Foundation of China for Young Scientists (62006026), the General Program of the National Natural Science Foundation of China (62072053), the Fundamental Research Funds for the Central Universities (300102241202, 300102241304), and the Scientific Innovation Practice Project of Postgraduates of Chang’an University (300103722035).
More Information
    Author Bio:

    Li Congliang: born in 1998. Master candidate. Student member of CCF. His main research interests include deep learning, multi-object pose estimation, and camera calibration

    Sun Shijie: born in 1989. PhD, master supervisor. His main research interests include multi-object detection and tracking, three-dimensional traffic reconstruction and multi-object pose estimation

    Zhang Zhaoyang: born in 1984. PhD, lecturer, master supervisor. His main research interests include pattern recognition, image processing, and three-dimensional traffic reconstruction

    Liu Zedong: born in 1999. Master candidate. His main research interests include deep learning and automatic camera calibration

    Lei Qi: born in 1994. PhD candidate. His main research interests include deep learning, multi-object detection and tracking

    Song Huansheng: born in 1964. PhD, professor, PhD supervisor. His main research interests include image and traffic video processing, intelligent transportation

  • 摘要:

    多目标位姿估计问题是无人驾驶、人机交互等领域的基础问题之一, 但目前受采集设备限制, 该领域数据大多集中在较小空间范围, 这使得刚体位姿估计的实用价值受到限制. 针对上述问题, 提出了一种基于孪生空间的单目图像目标位姿一体化标注方法, 并设计了一套位姿标注工具 LabelImg3D. 首先, 在孪生空间中放置同焦距的虚拟相机, 并构建与真实目标等同的3维模型;然后在孪生空间中放置真实空间拍摄图像(一次投影图), 使其填充虚拟相机视场;最后对3维模型进行平移旋转, 使目标二次投影与一次投影在虚拟相机中保持一致, 从而一体化得到目标位姿. 基于该方法, 开源了一套标注工具LabelImg3D (https://github.com/CongliangLi/LabelImg3D). 通过在KITTI及P-LM数据集上的测试, 实验结果表明, 该方法对尺寸变化不明显的目标, 平均位移精度可达85%以上, 旋转精度可达90%以上, 且该方法仅借助于单目相机, 大大降低了目标3维位姿数据的采集难度.

    Abstract:

    The multi-object pose estimation problem is one of the fundamental challenges in the fields of robotics and intelligent transportation. However, the current research on 3D pose estimation of rigid objects focuses on a relatively small scale, which leads to a shortage of practical applications in this field. In this paper, we propose twin space based monocular image object pose all-in-one labeling method, and publish a pose labeling tool, called LabelImg3D. We construct a twin space equivalent to the reality space and a 3D model of the real rigid object. After that, we place the real space image (primary projection) in the twin space so that the image taken by the simulated camera in the twin space (secondary projection) can match with the primary projection. Lastly, by moving and rotating the 3D model in the twin space, the object in the secondary projection image and that in the primary projection image are aligned in the image-space so that the poses of the object can be obtained. In this paper, we open source a labeling tool LabelImg3D (https://github.com/CongliangLi/LabelImg3D). The experimental results demonstrate that our method can achieve a translation accuracy of more than 85% and a rotation accuracy of more than 90% for the same type of object with little dimensional variation. In addition, our method only uses a monocular camera, which greatly reduces the difficulty of estimating the object’s 3D positional data.

  • 目标位姿估计就是估计目标基于相机坐标系的位置及姿态, 通常情况下我们分别使用3个参数来表示其位置及姿态, 因此该类问题也被称为6DoF(six degree of freedom)估计的问题,它是计算机视觉[1]与计算机图形[2]研究领域中的重要问题和热点问题之一[3]. 精确的3维位姿估计方法对于实现人机交互[4]、移动机器人[5]等应用具有十分重要的意义. 移动机器人, 尤其是无人车, 为了更好地感知复杂环境并完成特征任务, 周围目标的位姿获取[6]不可或缺.

    根据设备的不同, 位姿标注方法可被划分为3类: 基于RGB-D相机[7]、基于雷达[8]和基于RGB相机[9]的目标位姿标注方法. 基于RGB-D相机的位姿标注方法大多依赖散斑或ToF(time of flight)方式获取深度, 导致其感知距离受限(≤10 m)且会受到自然光照条件的影响, 不适合在室外使用[10];基于雷达的位姿标注方法通常需要结合相机, 才能获取场景的颜色信息, 设备造价较高;基于RGB相机的位姿标注方法不仅适用范围灵活(有些长焦相机的拍摄范围通常在100~300 m, 甚至更远1 km[11]左右), 而且采用的设备成本低廉, 但是该类方法较难消除透视投影造成的信息损失. 当前6DoF估计问题的研究多采用RGB-D相机所采集的数据, 为获取准确的位姿, 大多依赖于场景空间较小的数据集, 如LineMod[12], YCB Video[13]等.

    为克服相机的透视投影所带来的信息损失, 本文结合真实3维模型库, 提出了一种基于孪生空间的单目图像目标位姿一体化标注方法. 该方法仅需借助于单幅RGB图像与3维模型, 便可估计出RGB图像中每个目标的位姿. 相比于使用雷达、RGB-D相机, 本文方法仅使用成本低廉、广泛布设的单目RGB相机, 数据获取更容易, 可以进一步提升6DoF估计研究成果的实用性.

    基于RGB-D相机、基于雷达和基于RGB相机的位姿标注这3种方法因可观测距离、观测精度等因素的差异, 各有不同应用.

    通过RGB-D相机来捕获目标深度信息, 进而融合深度信息与图像纹理信息, 对目标6DoF进行还原, 从而获取目标的6DoF. 该种方法在BOP(benchmark for 6D object pose estimation)挑战赛中应用广泛, 如: 在LM(LineMod)[12], YCB-Video [13], LM-O(Linemod-Occluded)[14], RU-APC(Rutgers APC)[15], T-LESS[16], YCB-V HB(HomebrewedDB)[17]等数据集中的应用. 同时, 由于目前主流的位姿估计数据集大多是通过RGB-D相机构建而来的, 也导致当前该领域的方法大多数基于RGB-D相机. 然而由于RGB-D相机所存在的固有劣势, 其拍摄范围在10 m以内, 虽然可以满足流水线机械臂抓取[13]等空间范围较小的应用, 但是无法应用于无人驾驶、航天在轨机械臂、增强现实等场景空间范围较大的领域.

    基于雷达的6DoF标注的研究起步较晚, 目前多使用无人驾驶数据集KITTI[18]中的3维目标检测衍生出来的数据集. Slinko等人[19]利用KITTI数据集获取深度信息, 对交通目标的6DoF进行估计, 相比于其他方法, 该方法的应用场景进一步扩大, 但是其精度相比于基于RGB-D相机的方法略差. 此外, 由于雷达的价位较高[20], 一定程度上限制了其大规模的应用.

    基于单目RGB相机的目标位姿标注方法主要分为基于单目RGB视频或连续帧和基于单目RGB图像的目标位姿标注方法.

    基于单目RGB视频或连续帧的目标位姿标注方法是通过视场中目标整体运动过程来克服相机透视投影的信息损失, 并通过时间维度信息来弥补空间信息. 其中赵丽科等人[21]通过单目序列图像得到运动目标轮廓集合, 并构建不同位姿运动目标的模拟图像, 通过模型图像轮廓与真实图像轮廓构建距离代价函数, 进而解算运动目标位姿. 袁媛等人[22]通过对目标运动过程中的编码特征点进行正交迭代解算算法完成目标物体位姿测量. An等人[23]通过SFM(structure from motion)的方法对目标进行3维建模, 进而获取目标的形态. 该方法应用较为简单, 然而需要连续的相机拍摄过程, 并且运算过程较为复杂, 较难大规模适用于目标位姿标注过程.

    基于单目RGB图像的目标位姿标注方法是当前位姿标注研究的难点之一. 目前仅存在基于RGB图像的目标姿态标注方法[22]和目标深度估计方法. Zhao等人[24]通过深度学习的方式对单目图像中目标深度进行估计, 得到目标深度. Xiang等人[25]利用目标检测网络和图像投影的逆过程, 实现了目标姿态标注, 并提出了Objectnet3D的目标姿态数据集. 然而文献[22-25]所提的方法虽然分别实现了目标真实空间深度和姿态的获取, 但其获取过程复杂, 且无法一体化获取目标位姿, 因此当前急需一种目标位姿一体化标注方法.

    为满足当前6DoF估计领域的拍摄范围需求和大规模应用的可能性, 本文设计了一种通过单目RGB图像和目标真实3维模型估计位姿的方法, 以一体化获取单目RGB图像中目标的真实位姿.

    本文利用单目相机拍摄的RGB图像与目标的3维模型, 在已知相机焦距f的条件下使用相机的小孔成像原理, 通过改变目标模型在3维空间中的位置, 使其与RGB图像中对应目标重叠, 以求解目标6DoF, 这种求解目标的6DoF的方法, 本文称为基于孪生空间的单目图像目标位姿一体化标注方法.

    图1为本文方法的原理示意图, 一次投影图为真实世界中相机拍摄过程, 二次投影图为本文孪生空间中虚拟相机拍摄过程. 为方便后续分析, 设相机焦距为f, 相机拍摄图像的宽和高分别为widthheight, 可得水平视场角和垂直视场角分别为

    图  1  本文方法的原理示意图
    Figure  1.  Schematic diagram of our method principle
    αwidth=2arctan(width2f), (1)
    αheight=2arctan(height2f). (2)

    图1中涉及到4个坐标系, 分别为相机坐标系(XcYcZc坐标)、图像像素坐标系(UV坐标)、世界坐标系(XwYwZw坐标)和目标物体坐标系(XoYoZo坐标). 为便于分析, 设定世界坐标系坐标轴Xw, Yw与相机坐标系坐标轴Xc, Yc平行且方向相同, Zw, Zc位于同一直线且方向相反, 其中Zc轴为相机光轴;设世界坐标系原点Ow与相机坐标系原点Oc距离为d;目标物体坐标系原点位于目标中心点, Zo轴垂直向上, 且与Xo轴和 Yo轴成右手坐标系. 需要注意的是,二次投影过程中的平面I1 即为一次投影过程中的图像平面I1. 为方便计算, 设定相机水平视场角投射到世界坐标系XwOwYw平面时, 其距离为dwidth=1m, 则垂直视场角投射到世界坐标系XwOwYw平面时, 其距离为dheight=heightwidth, 则此时世界坐标系原点Ow与相机坐标系原点Oc的距离为

    d=dwidth2cot(αwidth2). (3)

    将式(1)和dwidth=1m带入式(3)得到

    d=dwidthfwidth=fwidth. (4)

    假设图像坐标系上目标位置存在某点p=(u,v,1),该点在相机坐标系、世界坐标系、目标物体坐标系的对应点分别为pc=(xc,yc,zc,1)pw=(xw,yw,zw,1)po=(xo,yo,zo,1).

    由相机焦距为f, 不考虑相机畸变, 则相机坐标系到图像像素坐标系的转化关系为

    α(uv1)=(f0cx0fcy001)(100001000010)(xcyczc1), (5)

    其中cxcy为图像中心点坐标, α为尺度因子.

    考虑到相机和目标的基准坐标系均为世界坐标系, 因此目标物体坐标系到图像坐标系的变换则转换为物体坐标系经由世界坐标系、相机坐标系, 最终转换到图像坐标系. 由于世界坐标系仅是为方便表述而引入的中间变量, 其位置对整体转换过程没有影响, 因此可固定世界坐标系的位置.

    为方便讨论, 在坐标系转换过程中, 先考虑位移, 后考虑旋转. 假定目标在世界坐标系中的位置为pw=(xw,yw,zw), 则由目标物体坐标系到相机坐标系的位移向量为

    {\boldsymbol{T}} = {\bigg( {\begin{array}{*{20}{c}} { - x_{\text{w}}'},&{ - y_{\text{w}}'},&{ - z_{\text{w}}' - d} \end{array}} \bigg)^{\text{T}}} . (6)

    假定目标物体坐标系分别绕世界坐标系 X , Y , Z 轴的旋转角度分别为 {r_X} , {r_Y} , {r_Z} , 则目标物体坐标系到世界坐标系的旋转矩阵为

    \begin{gathered} {{{\boldsymbol{R}}}'} = \left( {\begin{array}{*{20}{c}} 1&0&0 \\ 0&{\cos {r_X}}&{ - \sin {r_X}} \\ 0&{\sin {r_X}}&{\cos {r_X}} \end{array}} \right)\left( {\begin{array}{*{20}{c}} {\cos {r_Y}}&0&{\sin {r_Y}} \\ 0&1&0 \\ { - \sin {r_Y}}&0&{\cos {r_Y}} \end{array}} \right)\left( {\begin{array}{*{20}{c}} {\cos {r_Z}}&{ - \sin {r_Z}}&0 \\ {\sin {r_Z}}&{\cos {r_Z}}&0 \\ 0&0&1 \end{array}} \right) = \\ \quad \left( {\begin{array}{*{20}{c}} {\cos {r_Y}\cos {r_Z}}&{ - \cos {r_Y}\sin {r_Z}}&{\sin {r_Y}} \\ {\sin {r_X}\sin {r_Y}\sin {r_Z} + \cos {r_X}\sin {r_Z}}&{ - \sin {r_X}\sin {r_Y}\sin {r_Z} + \cos {r_X}\cos {r_Z}}&{ - \sin {r_X}\cos {r_Y}} \\ { - \cos {r_X}\sin {r_Y}\cos {r_Z} + \sin {r_X}\sin {r_Z}}&{\cos {r_X}\sin {r_Y}\cos {r_Z} + \sin {r_X}\sin {r_Z}}&{\cos {r_X}\cos {r_Y}} \end{array}} \right). \\ \end{gathered} (7)

    {{{\boldsymbol{R}}}{'}} = \left( {R'_{ij}} \right),{j \in \{1,2,3\}}, 根据坐标系的建立规则, 可得目标物体坐标系到相机坐标系的转化矩阵为

    {\boldsymbol{R}} = \left( {\begin{array}{*{20}{c}} {{R'_{11}}}&{{R'_{12}}}&{{R'_{13}}} \\ {{R'_{21}}}&{{R'_{22}}}&{{R'_{23}}} \\ {{R'_{31}}}&{{R'_{32}}}&{{R'_{33}}} \end{array}} \right){\text{ }}\left( {\begin{array}{*{20}{c}} 1&0&0 \\ 0&1&0 \\ 0&0&{ - 1} \end{array}} \right)\left( {\begin{array}{*{20}{c}} 0&1&0 \\ { - 1}&0&0 \\ 0&0&1 \end{array}} \right)\left( {\begin{array}{*{20}{c}} 0&1&0 \\ { - 1}&0&0 \\ 0&0&1 \end{array}} \right) ,

    可得

    {\boldsymbol{R}} = \left( {\begin{array}{*{20}{c}} {{R'_{11}}}&{ - {R'_{12}}}&{ - {R'_{13}}} \\ {{R'_{21}}}&{ - {R'_{22}}}&{ - {R'_{23}}} \\ {{R'_{31}}}&{ - {R'_{32}}}&{ - {R'_{33}}} \end{array}} \right) . (8)

    由式(5)(6)(8)可得, 目标物体坐标系到图像像素坐标系的转化关系为

    \begin{split}& \alpha \left( {\begin{array}{*{20}{c}} u \\ v \\ 1 \end{array}} \right) = \\& \left( {\begin{array}{*{20}{c}} f&0&{{c_x}} \\ 0&f&{{c_y}} \\ 0&0&1 \end{array}} \right)\left( {\begin{array}{*{20}{c}} 1&0&0&0 \\ 0&1&0&0 \\ 0&0&1&0 \end{array}} \right) \bigg({\boldsymbol{R}}\;|\;{\boldsymbol{T}} \bigg)\left( {\begin{array}{*{20}{c}} {{x_{\text{o}}}} \\ {{y_{\text{o}}}} \\ {{z_{\text{o}}}} \\ 1 \end{array}} \right) . \end{split} (9)

    由式(6)(8)可知, 矩阵 {\boldsymbol{R}} 含有9个未知量, 矩阵 {\boldsymbol{T}} 含有3个未知量, 同时式(9)中自身包含1个未知量 \alpha , 因此式(9)中共有13个未知数. 假定已知2维图像和3维空间某个点的对应关系, 代入式(9)可得到3个方程组, 即: 一个3维空间中的点与2维图像中的对应点可提供3个方程, 因此若想求得唯一转换关系, 则至少需要5个不共面的对应点. 考虑到固定大小的3维物体目标与图像中已知的投影有无数个对应点, 因此通过固定大小的非对称3维物体目标在固定焦距和视场角的相机视角下, 若图像中投影固定, 则有唯一位姿.

    由2.1节可知, 若固定大小的非对称3维目标在固定焦距和视场角相机中的投影图像与空间目标存在至少5个不共面的对应特征点, 则可依据式(9)求得13个未知数, 且解唯一, 本文称该投影过程唯一. 对于对称目标, 需特殊处理策略, 本文不作讨论.

    考虑到在真实空间中较难在同场景、同位姿情况下重构出目标一次投影, 因此, 本文通过重构同焦距、同视场的孪生相机及目标来构建孪生空间. 通过在孪生空间中放置虚拟相机和一次投影图, 并将与目标一致的3维模型也放置其中. 其中, 3维模型的投影过程称为“二次投影”, 虚拟相机成像图为二次投影图, 通过平移旋转, 使得3维模型在虚拟相机成像的目标与图像目标吻合, 则此时3维模型的位姿便可等价于该目标的位姿. 具体有3个步骤.

    步骤1. 孪生空间生成. 本文选择使用VTK[26]工具进行初始孪生空间生成, 同时在世界坐标系( {\begin{array}{*{20}{c}} 0,0,d \end{array}} )的位置放置相机, 相机焦距为 f , 水平视场角和垂直视场角分别为 {\alpha _{width}} {\alpha _{height}} , 相机方向即为相机光轴方向,与世界坐标系 Z 轴反向.

    步骤2. 视场范围内放置一次投影图像. 考虑到场景信息不足, 无法在空间中孪生目标周围环境,同时为方便比较一次投影图像中的目标与二次投影图像中的目标, 以孪生空间世界坐标系的 {O_{\text{w}}} 点为图像中心, U 轴与 {X_{\text{w}}} 轴平行, V 轴与 {Y_{\text{w}}} 轴平行, 在 {X_{\text{w}}}{O_{\text{w}}}{Y_{\text{w}}} 平面内放置一次投影图, 如图1所示.

    步骤3. 模型二次投影. 在孪生空间相机的视场范围内添加目标模型, 并将模型在孪生空间中进行平移和旋转. 此时, 观察孪生空间相机拍摄结果, 当目标模型二次投影结果与图像中真实空间目标一次投影结果完全相同时, 通过VTK工具得到目标3维位姿.

    考虑到6DoF标注领域目前暂无基于单目RGB图像的目标位姿标注方法, 无法进行同领域对比实验, 因此为证明本文方法的有效性, 本文与基于RGB-D和基于雷达的方法标注的精度进行对比, 以证明本文方法的正确性和有效性.

    为验证本文孪生3维空间的目标二次投影方法在6DoF获取的有效性, 基于本文方法, 使用Python3.8, VTK9.0和PyQt5.15制作标注软件——LabelImg3D 1, 并在Windows系统上进行精度测试.

    在测试时, 需要已知当前场景相机的焦距或单个视场角以及真实物体的3维模型, 同时考虑VTK加载问题, 模型为obj文件.

    P-LM是一个由LineMod数据集整理后得到的数据集, 共包含15个类别, 每个类别均包含深度图、掩码图和RGB图像, 每幅图像的内参矩阵已知, 且每个类别均给出ply模型及模型大小. KITTI数据集是一个包含市区、乡村和高速公路等场景采集的真实图像数据, 本文选择与其3维目标检测数据进行精度对比, 其训练集共包含7481张图像, 其标签由car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram, misc组成.

    使用LabelImg3D对P-LM和 KITTI 这2个数据集的图像进行标注, 标注结果如图2图3所示. 为方便进行精度测试, 本文分别从P-LM和KITTI数据集中选择每个类别中的200张进行标注并测试. 同时考虑到KITTI数据集中并没有给出真实物体的3维模型, 因此根据KITTI给出的目标长、宽、高及类别制作5个类别的平均模型进行标注.

    图  2  室内数据集标注结果示意图
    Figure  2.  Schematic diagram of the labeling results of the indoor dataset
    图  3  室外数据集标注结果示意图
    Figure  3.  Schematic diagram of the labeling results of the outdoor dataset

    6DoF估计主要有6个参数,即 x y z {r_X} {r_Y} {r_Z} . 考虑到,若位移误差仅使用一阶范数,则未充分体现出与相机的距离对误差产生的影响,因此本文提出6个自由度的精度进行指标评价,参考高斯距离,使用 {\ell _X} {\ell _Y} {\ell _Z} 来描述基于 X Y Z 方向上的精度,并使用 {\partial _{{R_X}}} {\partial _{{R_Y}}} {\partial _{{R_Z}}} 来描述在 {R_X} {R_Y} {R_Z} 方向上的精度. 其定义为:

    {\ell _X}{\text{ = }}{{\text{e}}^{ - \left| {{x_{\text{l}}} - {x_{\text{g}}}} \right|}} , (10)
    {\partial _{{R_X}}} = \cos (\arccos (\cos {r_{{x_{\text{g}}}}} \times \cos {r_{{x_{\text{l}}}}} - \sin {r_{{x_{\text{g}}}}} \times \sin {r_{{x_{\text{l}}}}})) , (11)

    其中 {x_{\text{g}}} {r_{{x_{\text{l}}}}} X 方向上的位移和旋转的真值, {x_{\text{l}}} {r_{{x_{\text{l}}}}} X 方向上的位移和旋转的标注结果.

    为了进一步说明本文方法的有效性和精确性, 将其与P-LM数据集和KITTI数据集进行对比实验.

    将从P-LM数据集中按照类别随机抽取的图片进行标注, 结果如图4所示, 并将其与其原始标签对比, 结果如表1所示. 由表1可知, 使用本文方法标注的结果, 虽然因物体类型的不同精度有所变化, 但是其位移精度均在0.95以上, 旋转精度均在0.90以上, 其精度基本满足实际获取需求.

    图  4  LabelImg3D标注P-LM的实例图
    Figure  4.  Example diagram of LabelImg3D labeling P-LM
    表  1  P-LM数据集的对比实验
    Table  1.  Comparative Experiment of P-LM Dataset
    类别 {\ell _X} {\ell _Y} {\ell _Z} {\partial _{{R_X}}} {\partial _{{R_Y}}} {\partial _{{R_Z}}}
    Ape0.986 30.994 60.965 60.911 90.993 60.960 4
    Benchviseblue0.989 90.995 00.957 60.877 20.993 00.994 4
    Cat0.985 00.994 90.949 30.981 70.932 80.899 8
    Duck0.988 10.992 50.936 00.905 20.995 30.955 5
    Lamp0.995 00.990 50.960 00.848 30.981 40.803 3
    平均值0.988 90.993 50.953 70.904 90.979 20.922 3
    下载: 导出CSV 
    | 显示表格

    将从KITTI数据集中抽取的图片按照类别进行标注, 结果如图5图6所示, 并与其原始标签进行对比, 结果如表2所示. 由表2可知, 位移精度对比中Tram类型位移精度较差, 旋转精度对比中Pedestrian类型精度较差, 其余位移精度均可达0.95以上, 旋转精度可达0.85以上.

    图  5  LabelImg3D标注KITTI的实例图
    Figure  5.  Example diagram of LabelImg3D labeling KITTI
    图  6  LabelImg3D标注KITTI的雷达对比图
    Figure  6.  Radar comparison chart of LabelImg3D labeling KITTI
    表  2  KITTI数据集的对比实验
    Table  2.  Comparative Experiment of KITTI Dataset
    类别 {\ell _X} {\ell _Y} {\ell _Z} {\partial _{{R_X}}} {\partial _{{R_Y}}} {\partial _{{R_Z}}}
    Tram0.505 10.877 30.626 10.998 30.868 00.998 3
    Car0.894 80.939 10.841 90.999 00.997 10.999 6
    Van0.812 80.904 70.805 10.993 50.988 40.992 6
    Pedestrian0.895 30.936 60.761 60.909 40.487 60.765 7
    平均值0.777 00.914 40.758 60.979 10.835 30.939 1
    下载: 导出CSV 
    | 显示表格

    对Tram类型进行对比分析, 对比过程如图7所示. 由图7可知,由于标注过程中使用的模型为平均模型, 而对于Tram而言其长度相差较大, 这就导致在使用平均模型时无法使用模型本身的特征点对原图中Tram的特征点进行准确表述, 尤其是当存在一些极端长度时, 会出现标注误差较大的问题.

    图  7  Tram对比结果图
    Figure  7.  Comparative results of Tram

    对Pedestrian类型进行对比分析, 对比过程如图8所示. 由图8可知,由于人体在运动过程中的动态特性无法使用一个固定状态的模型去描述, 这导致旋转标注结果与真值相差较大, 因此在使用时仅可用于刚体3维姿态的描述.

    图  8  Pedestrian对比结果图
    Figure  8.  Comparative results of Pedestrian

    本文提出了基于孪生空间的单目图像目标位姿一体化标注方法, 此方法仅利用单目RGB图像, 结合与刚体目标一致的3维模型, 重构出与图像一致的孪生空间, 并对3维模型进行二次投影, 最终得到目标的3维位姿. 实验表明, 本文方法可在已知相机焦距的基础上利用图像和3维模型, 即可一体化获取精度接近RGB-D相机和雷达采集的结果.

    需要注意的是, 本文方法存在一定的局限性:一方面该方法受限于3维模型与真实物体的一致性, 若存在较大的尺寸差异, 需构建出多个不同尺寸的3维模型;另一方面, 该方法无法处理非刚体目标. 未来, 我们的主要工作将侧重于在非刚体约束下的目标位姿及形态高参估计.

    作者贡献声明:李聪亮负责论文选题、论文实验、代码验证与测试、论文撰写;孙士杰负责论文选题、方法构思与设计、论文修改;张朝阳负责理论支撑、方法理论完善、文稿修改及论文定稿;刘泽东负责资料查询、代码实验测试及数据标注;雷琪负责资料解释、论文实验、代码实现与测试;宋焕生负责资料解释、文稿修改及论文定稿. 李聪亮和孙士杰为共同第一作者.

  • 图  1   本文方法的原理示意图

    Figure  1.   Schematic diagram of our method principle

    图  2   室内数据集标注结果示意图

    Figure  2.   Schematic diagram of the labeling results of the indoor dataset

    图  3   室外数据集标注结果示意图

    Figure  3.   Schematic diagram of the labeling results of the outdoor dataset

    图  4   LabelImg3D标注P-LM的实例图

    Figure  4.   Example diagram of LabelImg3D labeling P-LM

    图  5   LabelImg3D标注KITTI的实例图

    Figure  5.   Example diagram of LabelImg3D labeling KITTI

    图  6   LabelImg3D标注KITTI的雷达对比图

    Figure  6.   Radar comparison chart of LabelImg3D labeling KITTI

    图  7   Tram对比结果图

    Figure  7.   Comparative results of Tram

    图  8   Pedestrian对比结果图

    Figure  8.   Comparative results of Pedestrian

    表  1   P-LM数据集的对比实验

    Table  1   Comparative Experiment of P-LM Dataset

    类别 {\ell _X} {\ell _Y} {\ell _Z} {\partial _{{R_X}}} {\partial _{{R_Y}}} {\partial _{{R_Z}}}
    Ape0.986 30.994 60.965 60.911 90.993 60.960 4
    Benchviseblue0.989 90.995 00.957 60.877 20.993 00.994 4
    Cat0.985 00.994 90.949 30.981 70.932 80.899 8
    Duck0.988 10.992 50.936 00.905 20.995 30.955 5
    Lamp0.995 00.990 50.960 00.848 30.981 40.803 3
    平均值0.988 90.993 50.953 70.904 90.979 20.922 3
    下载: 导出CSV

    表  2   KITTI数据集的对比实验

    Table  2   Comparative Experiment of KITTI Dataset

    类别 {\ell _X} {\ell _Y} {\ell _Z} {\partial _{{R_X}}} {\partial _{{R_Y}}} {\partial _{{R_Z}}}
    Tram0.505 10.877 30.626 10.998 30.868 00.998 3
    Car0.894 80.939 10.841 90.999 00.997 10.999 6
    Van0.812 80.904 70.805 10.993 50.988 40.992 6
    Pedestrian0.895 30.936 60.761 60.909 40.487 60.765 7
    平均值0.777 00.914 40.758 60.979 10.835 30.939 1
    下载: 导出CSV
  • [1]

    Liu Jinhui, Zou Zhikang, Ye Xiaoqing, et al. Leaping from 2D detection to efficient 6DoF object pose estimation[C]//Proc of European Conf on Computer Vision. Berlin: Springer, 2020: 707−714

    [2]

    Unicomb J, Dantanarayana L, Arukgoda J, et al. Distance function based 6DoF localization for unmanned aerial vehicles in GPS denied environments[C]//Proc of the 30th IEEE Int Conf on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2017: 5292−5297

    [3] 宗丹,李淳芃,夏时洪,等. 基于关键姿态分析的运动图自动构建[J]. 计算机研究与发展,2010,47(8):1321−1328

    Zong Dan, Li Chunpeng, Xia Shihong, et al. Key-postures based automated construction of motion graph[J]. Journal of Computer Research and Development, 2010, 47(8): 1321−1328 (in Chinese)

    [4]

    Albiero V, Chen Xingyu, Yin Xi, et al. Img2pose: Face alignment and detection via 6DoF, face pose estimation[C]//Proc of the 30th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 7617−7627

    [5]

    Wu Di, Zhuang Zhaoyong, Xiang Canqun, et al. 6D-VNet: End-to-end 6DoF vehicle pose estimation from monocular RGB images[C]//Proc of the 28th IEEE/CVF Conf on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, NJ: IEEE, 2019: 1238−1247

    [6]

    Mo Hong, Zhao Xuanming, Wang Feiyue. Application of interval type-2 fuzzy sets in unmanned vehicle visual guidance[J]. International Journal of Fuzzy Systems, 2019, 21(6): 1661−1668 doi: 10.1007/s40815-019-00680-4

    [7]

    Saadi L, Besbes B, Kramm S, et al. Optimizing RGB-D fusion for accurate 6DoF pose estimation[J]. IEEE Robotics and Automation Letters, 2021, 6(2): 2413−2420 doi: 10.1109/LRA.2021.3061347

    [8]

    Komorowski J, Wysoczanska M, Trzcinski T. Egonn: Egocentric neural network for point cloud based 6DoF relocalization at the city scale[J]. IEEE Robotics and Automation Letters, 2021, 7(2): 722−729

    [9] 王硕,祝海江,李和平,等. 基于共面圆的距离传感器与相机的相对位姿标定[J]. 自动化学报,2020,46(6):1154−1165 doi: 10.16383/j.aas.c190115

    Wang Shuo, Zhu Haijiang, Li Heping, et al. Relative pose calibration of distance sensor and camera based on coplanar circles[J]. Journal of Automation, 2020, 46(6): 1154−1165 (in Chinese) doi: 10.16383/j.aas.c190115

    [10] 李祥攀,张彪,孙凤池,等. 基于多视角RGB-D图像帧数据融合的室内场景理解[J]. 计算机研究与发展,2020,57(6):1218−1226 doi: 10.7544/issn1000-1239.2020.20190578

    Li Xiangpan, Zhang Biao, Sun Fengchi, et al. Indoor scene understanding by fusing multi-view RGB-D image frames[J]. Journal of Computer Research and Development, 2020, 57(6): 1218−1226 (in Chinese) doi: 10.7544/issn1000-1239.2020.20190578

    [11]

    Rebecq H, Ranftl R, Koltun V, et al. High speed and high dynamic range video with an event camera[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(6): 1964−1980 doi: 10.1109/TPAMI.2019.2963386

    [12]

    Tekin B, Sinnha S N, Fua P. Real-time seamless single shot 6D object pose prediction[C]//Proc of the 27th IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 292−301

    [13]

    Xiang Yu, Schmidt T, Narayanan V, et al. PoseCNN: A convolutional neural network for 6D object pose estimation in cluttered scenes[J]. arXiv preprint, arXiv: 1711.00199, 2017

    [14]

    Brachmann E, Krull A, Michel F, et al. Learning 6D object pose estimation using 3D object coordinates[C]//Proc of European Conf on Computer Vision. Berlin: Springer, 2014: 536−551

    [15]

    Rennie C, Shome R, Bekris K E, et al. A dataset for improved RGBD-based object detection and pose estimation for warehouse pick-and-place[J]. IEEE Robotics and Automation Letters, 2016, 1(2): 1179−1185 doi: 10.1109/LRA.2016.2532924

    [16]

    Hodan T, Haluza P, Obdrzalek Š, et al. T-LESS: An RGB-D dataset for 6D pose estimation of texture-less objects[C]//Proc of 2017 IEEE Winter Conf on Applications of Computer Vision (WACV). Piscataway, NJ: IEEE, 2017: 880−888

    [17]

    Kaskman R, Zakharov S, Shugurov I, et al. HomebrewedDB: RGB-D dataset for 6D pose estimation of 3D objects[C]//Proc of 2019 IEEE/CVF Int Conf on Computer Vision Workshop (ICCVW). Piscataway, NJ: IEEE, 2020: 2767−2776

    [18]

    Gelger A, Lenz P, Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]//Proc of the 21st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3354−3361

    [19]

    Slinko I, Vorontsova A, Zhukov D, et al. Training deep SLAM on single frames[J]. arXiv preprint, arXiv: 1912.05405, 2019

    [20]

    Kumar V, Wang Qiang, Wang Minghua, et al. Computer vision based object grasping 6DoF robotic arm using picamera[C]//Proc of the 4th Int Conf on Control, Automation and Robotics (ICCAR). Piscataway, NJ: IEEE, 2018: 111−115

    [21] 赵丽科,郑顺义,王晓南,等. 单目序列的刚体目标位姿测量[J]. 浙江大学学报:工学版,2018,52(12):2372−2381

    Zhao Like, Zheng Shunyi, Wang Xiaonan, et al. Monocular sequence of rigid body target positional measurements[J]. Journal of Zhejiang University: Engineering Edition, 2018, 52(12): 2372−2381 (in Chinese)

    [22] 袁媛,刘柯,孙增玉,等. 单目视觉三维运动位姿测量方法研究[J]. 宇航计测技术,2019,39(6):1−6 doi: 10.12060/j.issn.1000-7202.2019.06.01

    Yuan Yuan, Liu Ke, Sun Zengyu, et al. Research on monocular vision 3D motion pose measurement method[J]. Astronautics Measurement Technology, 2019, 39(6): 1−6 (in Chinese) doi: 10.12060/j.issn.1000-7202.2019.06.01

    [23]

    An Pengju, Fang Kun, Jiang Qiangqiang, et al. Measurement of rock joint surfaces by using smartphone structure from motion (SfM) photogrammetry[J]. Sensors, 2021, 21(3): 922−945 doi: 10.3390/s21030922

    [24]

    Zhao Chaoqiang, Sun Qiyu, Zhang Chongzhen, et al. Monocular depth estimation based on deep learning: An overview[J]. Science China Technological Sciences, 2020, 63(9): 1612−1627 doi: 10.1007/s11431-020-1582-8

    [25]

    Xiang Yu, Kim W, Chen Wei et al. Objectnet3D: A large scale database for 3D object recognition[C]//Proc of European Conf on Computer Vision. Berlin: Springer, 2016: 160−176

    [26]

    Schroeder W J, Avila L S, Hoffman W. Visualizing with VTK: A tutorial[J]. IEEE Computer Graphics and Applications, 2000, 20(5):20−27

图(8)  /  表(2)
计量
  • 文章访问数:  122
  • HTML全文浏览量:  13
  • PDF下载量:  68
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-05-16
  • 修回日期:  2022-10-09
  • 网络出版日期:  2023-06-25
  • 刊出日期:  2023-10-31

目录

/

返回文章
返回