CVPR 2021 Oral | VRCNet：变分关联点云补全网络

Posted 2021-06-27 人工智能博士

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CVPR 2021 Oral | VRCNet：变分关联点云补全网络相关的知识，希望对你有一定的参考价值。

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：商汤学术

在 CVPR 2021 上，南洋理工大学 S-Lab 与商汤 IRDC 团队合作提出变分关联点云补全网络 (VRCNet)。如 Fig.1(a) 所示，VRCNet 首先预测出粗略形状框架 (PMNet)，再增强关联性形状细节生成 (RENet)。对比之前方法，VRCNet 生成的完整点云有显著的质量提升 (见Fig.1(b))。更进一步地，Fig.1(c) 中的补全结果显示，VRCNet 可以基于观测到的不同的残缺点云，结合关系性架构推测生成合理而不同的完整点云。此外，本文还建立了一个大规模多视角的残缺点云 (MVP) 数据集，可以应用于包括残缺点云分类、分割和配准等多个点云学习任务的研究。

Figure 1 VRCNet 点云补全方法框架和主要优点总览

⚠️插播一条广告：在本周四（6月10日）的商汤学术公开课上，论文一作将对本篇论文进行详细分享（详细内容戳课程介绍⬅️），不容错过！

Part 1 问题和挑战

点云补全是 3D 感知中的一个重要并且基础的任务，它旨在基于扫描得到的片面且不完全的点云形状预测和恢复完整的3D模型。现实生活中，由于遮挡等问题造成只能观察到残缺的点云形状，而很多任务很依赖感知到完整的 3D 形状。比如，抓取机器人需要了解完整的物体形状以稳妥地抓取物体。此外，完整的点云形状还有助于深度学习对 3D 物体的语义感知和检测。点云补全问题大约可以分为以下三个层次：

1. 点云补全需要能感知并区别不同但类似的点云形状（辨识）

2. 点云补全需要能从结构关系上分析和理解点云形状（推断）

3. 点云补全需要对完整点云形状有一定的先验知识（生成）

3D 深度学习的发展使得点云补全也取得了显著的进展。然而，很多现有的方法都只停留在“辨识”层面上，也就是可以从已知的形状中获取与片面观测最相似的形状。可是，新补全的部分和观测到的部分之间缺少关系约束，并且对学习中未见过的新形状缺少推理和生成的能力，甚至难以保留已观测到的形状细节特征。

Part 2 方法介绍

鉴于此，我们提出了一个新颖并且综合性的点云补全网络（VRCNet，如Fig. 2所示）。它由概率模型网络（PMNet）和关系增强网络（RENet）两个子网络级联构成。首先，PMNet基于残缺点云生成一个粗略的点云形状框架，然后再由RENet结合前阶段生成的粗略框架和残缺点云观测，推测具有相关性的结构，以实现最后生成点云细节特征的增强。

Figure 2 VRCNet网络架构：PMNet（浅蓝色）和RENet（浅黄色，细节见Figure 4）

1. 概率模型网络（PMNet）

动机：

由于点云的形状残缺，也导致了其空间分布上的网格缺失，从而影响了全局意义上局部形状细节的生成。为了缓解和避免这个问题，我么提出并设计了 PMNet，旨在先从点云的全局特征和分布出发，先生成一个粗略的全局点云框架结构，再以此辅助其形状细节增强。

方法：

PMNet（如Fig. 2浅蓝色框所示）是一个双通道的网络架构，包含一个重建通道和一个补全通道。重建通道对完整的点云形状做自编码和解码以恢复完整形状，而补全通道通过相似的网络做编码和解码以补全完整形状。两个通道间有多个共享模块。在训练时，重建通道在网络梯度和形状分布两个层面上引导补全通道的学习和收敛。在测试时，重建通道不再使用，网络只输入残缺点云。

训练时使用到的损失函数如下:

其中表示重建通道的损失函数，而代表的是补全通道的损失函数。这里代表对应函数的期望，是对应数据的真实分布，X 是残缺点云，Y 是完整点云，KL 代表 Kullback–Leibler 散度。重建通道和补全通道的损失函数都包含有两个部分：1）分布之间的散度比较；2）生成的形状与真实数据形状的比较。不同的是，重建通道的编码分布向先验的高斯分布靠近，而补全通道的编码分布向重建通道的编码分布靠近。

2. 关系增强网络（RENet）

动机：

通过 PMNet，我们编码生成了粗略的点云形状框架，但是缺少了很多细节信息。理想的点云补全不仅应当能保留观测到的点云细节信息，还应当根据关联性的结构（比如，人造物体的对称，阵列，以及光滑表面）推测未知的点云的细部特征。于是，我们综合考虑生成的粗略点云形状框架和残缺点云，以进一步增强生成完整点云的细节特征。启发于 2D 图像中基于自注意力的操作可以有效学习图像特征的关联，我们也致力于探索各种基于自注意力的操作对于点云特征的学习。

方法：

基于提出的多个新颖且强力的点云学习模块，诸如 PSA，PSK 和 R-PSK 模块（见Fig. 3），我们构建了 RENet（Fig. 4）网络架构。PSA 模块利用点云的自注意力机制，自适应地学习点云局部邻近点之间的关联。PSK 模块通过并联多个不同尺度的 PSA 模块，可以自适应地选取由不同尺度感受野编码得到的特征。此外，通过额外添加的残差链接，我们得到最终的 R-PSK 模块，而它是 RENet 的基本运算块。

Figure 3 RENet 中使用到的各个基于关系的点云特征学习模块

各个点云模块的具体运算：

● PSA 模块的具体运算展示于公式（3）和公式（4）中。其中，代表点所有搜寻到的 K-NN 临近点的特征，，，和都代表了线性变换运算，而代表了特征向量的链接操作（concatenation）。

● PSK 模块的运算可以用公式（5）表述。其中和是由两个不同尺度的 PSA 模块编码得到的点云特征；W，A 和 B，是预测的权重矩阵；是全连接层；V 是最后融合得到的点云特征。

Figure 4 RENet 的具体网络架构

基于我们构建的多种模块，我们沿用 U-Net[1] 的思路搭建起多层级的 RENet 网络。此外，RENet 还使用了 EFE[2] 模块以支持多种分辨率的完整点云生成。

3. 损失函数

损失函数主要有三个部分：重建通道损失函数，补全通道损失函数和关系增强网络的损失函数。和都包含两个损失函数项：公式（6）中的Kullback–Leibler（KL）散度项和公式（7）中的 Chamfer Distance （CD）损失函数；只包含CD损失函数。于是，整体的损失函数定义如公式（8）所示，其中，和是对应的权重参数。

Part 3 MVP 数据集

动机：

为了建立一个更统一并且综合性的残缺点云数据集，我们生成了 MVP 数据集。对比之前的残缺点云数据集，比如 PCN[3] 和 C3D[4]，MVP 有很多吸引人的特性（见Table 1）。

Figure 5 MVP 数据集数据生成和质量对比

主要优点：

MVP 主要的优点有：1）均匀分布的虚拟相机视角产生了多样化的残缺点云； 2）更大数量和更高质量的点云数据； 3）丰富的点云种类。由 Fig. 5(a) 和 Fig. 5(b) 可以看出，对于同一个完整 CAD 飞机模型，我们使用了26个均匀分布的虚拟相机，从而采集到丰富且各异的高质量残缺飞机点云。Fig. 5(c) 对比了不同分辨率下生成的残缺点云质量，MVP 使用高分辨率也获得了更高质量的残缺点云。不同采样方法生成的完整点云质量对比展示在 Fig. 5(d)中。相比较之前方法使用的均匀采样（US），MVP 使用的泊松采样（PDS）生成了更高质量的完整点云。

Part 4 实验结果

1. 点云补全结果质量对比

Fig. 6是在 MVP 数据集上的不同方法点云补全的效果图对比。VRCNet 的结果相比较之前的点云补全方法主要有两方面的优势：1）可以生成更均匀和光滑分布的高质量完整点云；2）可以有效地捕捉到关联性结构并对缺失部分实现合理的生成和补全。

Figure 6 不同方法在MVP数据集上的点云补全结果展示

2. 真实点云补全结果展示

我们进一步在现实采集到的残缺点云上检验 VRCNet 的补全能力。在 Fig. 7 中，残缺的汽车点云源于 Kitti 数据集（激光雷达采集），而残缺的桌子和椅子点云源于 ScanNet 数据集（深度相机采集），它们都没有对应的完整的点云。 VRCNet 通过学习和预测多种对称性，可以较好地生成高质量的完整点云。

Figure 7 在实际采集的残缺点云的补全效果对比

3. 点云补全结果数值对比

与之前提出的方法对比，VRCNet 在 MVP (见 Table 4)和 C3D (见 Table 3)数据集上取得更优的表现，并有着明显的提升。不同的分辨率下的点云补全实验(见 Table 2) 进一步彰显出 VRCNet 的优越性。

Part 5 结语

在本文中，我们提出了 VRCNet，一个变分关联性点云补全网络。VRCNet 可以通过学习关联性结构来预测完整点云。此外，我们还提出了多个新颖并且强力的基于自注意力的点云学习模块，如 PSA 和 PSK，它们也可以很便捷地被运用到其他的点云学习任务中。特别地，我们贡献了一个大规模的点云数据集 MVP，可以应用于多个点云学习任务，比如残缺点云分类和配准。我们强烈推荐研究人员在后续的点云研究中尝试我们提出的点云学习模块和数据集。

项目主页

https://paul007pl.github.io/projects/VRCNet

论文地址

https://arxiv.org/abs/2104.10154

代码地址

https://github.com/paul007pl/VRCNet

实验室主页

https://www.mmlab-ntu.com/

欢迎有兴趣实习/深造的学生关注官网，联系NTU@MMLab~

Reference

[1] Ronneberger, O., Fischer, P., & Brox, T. (2015, October). U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention (pp. 234-241). Springer, Cham.

[2] Pan, L. (2020). ECG: Edge-aware Point Cloud Completion with Graph Convolution. IEEE Robotics and Automation Letters, 5(3), 4392-4398.

[3] Yuan, W., Khot, T., Held, D., Mertz, C., & Hebert, M. (2018, September). Pcn: Point completion network. In 2018 International Conference on 3D Vision (3DV) (pp. 728-737). IEEE.

[4] Tchapmi, L. P., Kosaraju, V., Rezatofighi, H., Reid, I., & Savarese, S. (2019). Topnet: Structural point cloud decoder. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 383-392).

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

AI博士私人微信，还有少量空位