CVPR2018PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

Posted 2021-03-13 xiaoaoran

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CVPR2018PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation相关的知识，希望对你有一定的参考价值。

又一篇3D点云detection的顶会。这篇文章是two stage的方法，非end-to-end。文章的前提是利用faster rcnn得到2D图像的image crop；然后才是本文介绍的PointFusion，即将image crop和对应的3D点云数据作为输入，得到3D box。可以说这篇文章实际2D检测基础上做3D检测。

整个模型如图：

技术图片

输入：2D 图像块（fatser RCNN检测结果）；对应的3D点云
模型：
- 特征提取：
  - 2D图像用预训练的ResNet50提取2048d的特征
  - 用多个PointNet网络（去除BN层）提取1024d的全局特征（$1024 imes1$）和每个点的64d特征（$64 imes n$）
- 特征融合
  - Global Fusion (baseline model)初始版本
    - 将2D的2048d全局特征和3D的1024d全局特征concatenate到一起得到3072d的特征（$3072 imes1$）
    - 3072d经过一个MLP
    - 输出：3D box 8个角点的x,y,z坐标($1 imes8 imes3$)
  - Dense Fusion (final model)最终版本
    - 每个点的64d特征+2048d2维特征+1024d三维全局特征concatenate到一起，得到$n imes2126$维特征。
    - 经过MLP之后，两个branch：
      - 输出$n imes2$，即每个点做2分类，判断该点是否在target bounding box中
      - 输出$n imes8 imes3$，即每个点分别在x,y,z方向输出偏置(offset)，即该点在三个坐标方向上离8个角点的距离。

以上是关于CVPR2018PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation的主要内容，如果未能解决你的问题，请参考以下文章

视频去模糊论文阅读-Cascaded Deep Video Deblurring Using Temporal Sharpness Prior

Paper | Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform

CVPR2018资源汇总

CVPR 2018 DeepGlobe

CVPR2018 单目标跟踪部分论文

CVPR2018: TFusion完全解读