泡泡图灵智库RTM3D:在自动驾驶场景中基于关键点的实时单目三维检测
Posted 泡泡机器人SLAM
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了泡泡图灵智库RTM3D:在自动驾驶场景中基于关键点的实时单目三维检测相关的知识,希望对你有一定的参考价值。
泡泡图灵智库,带你精读机器人顶级会议文章
标题:RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving
播音员:
编译:李培玄
审核:万应才,李鑫
摘要
大家好,今天为大家带来的文章是——RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving。
我们提出了一种高效和准确的单目三维检测方法。大多数基于图像的三维检测方法都将3DBBox到2DBBox的几何约束当作其重要的组件,然而四条边仅能提供四个几何约束,这使得2DBBox有微小误差时也会造成3D检测性能的急剧下降。与这些方法不同我们将三维检测问题重新定义为图像空间中的9关键点检测问题。9个关键点可以提供18个几何约束,这就可以完全恢复出3DBBOx的尺寸,方向和位置。我们的几何约束方法即使在关键点检测有很大噪声时也能稳定的进行三维检测,这使得我们可以利用一个很小的结构去进行关键点检测从而提高整个三维检测速度。我们的方法时第一个实时单目三维检测系统,并且在不利用其它训练数据和独立运行的网络时获得了最好的效果。
主要贡献
1. 我们将单目三维检测作为关键点检测问题,并结合几何约束来更有效、准确地生成三维物体的属性。
2. 我们提出了一种新颖的单阶段多尺度网络用于三维关键点检测,为多尺度目标提供精确的投影点。
3. 我们提出一个整体的能量函数,可以联合优化先验和三维目标信息。
4. 在KITTI基准上的评估,我们是第一个只使用图像的实时三维检测方法,在相同的运行时间下,在与其他竞争对手的比较中,我们也能获得更好的准确性。
算法流程
如图一所示,我们首先提出一种针对车辆的单阶段关键点检测网络。然后了利用这些网络生成的关键点和几何约束便可以推断出物体的信息。
图一,提出的方法流程图
1. 关键点检测网络
我们的关键点检测网络仅仅利用RGB图像作为输入,并且输出9个3Dbbox的投影点和其它先验信息。
图二,关键点检测网络
如图一所示,整体结构与centernet相似由三个部分组成: backbone、关键点特征金字塔和检测头。
1)backbone:为了达到速度与精度的折中,我们采用ResNet18和DLA34两种backbone。我们利用U-Net结构的跨连接层将backbone下采样4倍。
2)关键点特征金字塔:关键点检测很难采用2D检测的FPN,因为在小尺度时距离较近的关键点很容易重叠。如图二所示我们提出了一种专为检测关键点的特征金字塔层。
图三,关键点特征金字塔
3)检测头:如图一所示,检测头可由三个基本的组件和六个可选组件组成。其中由于在截断情况下3D中心的投影点可能会超出图像边界,因此maincenter采用2DBBox的中心点。
2. 3D BBox 估计
根据关键点检测网络预测的9个关键点和可选的组件我们可以将其用统一框架进行优化便可得到最终的3D信息。
主要结果
1、与其它方法的AP(3D),AP(BEV)和时间比较结果如下:
可以看到Res18为backbone时可以达到最快的速度,同时Iou=0.7时精度仅次于M3D-RPN。当使用DLA34时可以获得最好的精度并且速度也比所有方法好。
2、部分可视化结果:
可以看到在截断区域和遮挡区域,提出的方法仍然可以准确检测。这得益于关键点检测提供的冗余几何约束信息。
Abstract
In this work, we propose an efficient and accurate
monocular 3D detection framework in single shot. Most successful 3D detectors take the projection constraint from the 3D bounding box to the 2D box as an important component. Four edges of a 2D box provide only four constraints and the performance deteriorates dramatically with the small error of the 2D detector. Different from these approaches, our method predicts the nine perspective keypoints ofa 3D bounding box in image space, andthenutilize
the geometric relationship of 3D and 2D perspectives to recover the dimension, location, and orientation in 3D space.In this method, the properties of the object can be predicted stably even when the estimation of keypoints is very noisy, which enables us to obtain fast detection speed with a small architecture. Training o ur method only uses the 3D properties of the object without the need for external networks or
supervision data. Our method is the first real-time system for monocular image 3D detection while achieves state-of-the-art performance on the KITTI benchmark. Code will be released at https://github.com/Banconxuan/RTM3D.
点击阅读原文,即可获取本文下载链接。
欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。
有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!
泡泡网站:www.paopaorobot.org
泡泡论坛:http://paopaorobot.org/bbs/
商业合作及转载请联系liufuqiang_robot@hotmail.com
以上是关于泡泡图灵智库RTM3D:在自动驾驶场景中基于关键点的实时单目三维检测的主要内容,如果未能解决你的问题,请参考以下文章