阅读笔记--[CVPR2021] Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Ad
Posted 派大星灬
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阅读笔记--[CVPR2021] Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Ad相关的知识,希望对你有一定的参考价值。
Abstract
- 基本任务:大规模点云上的语义分割
- 一方面,为了减少邻近点的歧义,通过充分利用
双边结构
中的几何和语义特征来增加它们的局部上下文。 - 另一方面,全面地从
多个分辨率
中提取点的存在性,并在点级按照自适应融合
方法表示特征图,以实现精确的语义分割。
Introduction
- 文章重点:研究大规模复杂点云的语义分割任务,以识别真实点云场景中每个点的语义标签。
- 基于投影的(AlaxNet)、基于离散化的(Voxels or grids)和基于点的(PointNet)CNN模型由于一些共同的问题,对于实际应用来说并不是最佳的,首先它们需要几个耗时的/后处理步骤,其次,生成的中间表示可能会部分地失去周围环境的背景。
- 现有的工作有三个主要的缺点:
Ambiguity in close points
,Redundant features
和Inadequate global representations
。 - Ambiguity in close points:闭点歧义。比如在领域构建过程中,领域之间的噪点和重叠是难以避免的,往往会产生歧义。文中通过扩大局部环境,并引入一个稳健的聚合过程来细化增强的局部上下文,并为点的表示提取有用的邻近信息来减轻可能的影响。
- Redundant features:特征冗余。许多作品多次结合相似的特征来增强模型的感知,这一过程造成了冗余,并增加了模型处理大规模点云的复杂性。文中将输入信息表征为几何和语义线索,然后通过双边结构(几何与特征)充分利用它们。
- Inadequate global representations:不充分的全局表达。应用
编码器-解码器
结构来学习采样点云的方法,因为原始数据的全局感知会在植入过程中受到损害,所以输出的特征图不足以进行细粒度的语义分割分析。文中通过整合来自不同分辨率的信息来重建这种感知,并自适应地融合每个点的多分辨特征,以获得可直接应用于语义预测的综合表示。
Contribution:
- 引入了双边块来增加点的局部上下文。
- 自适应地融合多分辨特征以获得关于点云的综合知识。
- 提出了一种新的语义分割网络来处理真实的点云场景。
Methodology
- 点云表示:\\(P \\epsilon \\Bbb R^{N×3}\\) 表示N个点的三维坐标集合。\\(F \\epsilon \\Bbb R^{N×d}\\)表示N个点的d维特征空间,这些特征可以通过CNN的隐含语义上下文线索的操作进行隐式编码。
Bilateral Context Module
- 双边上下文模块由多个双边上下文块组成,用于研究不同分辨率下的点云。
- 在双边上下文块中,通过涉及双边输入信息中相互学习的偏移量(即\\(p_i \\epsilon \\Bbb R^3\\)和\\(f_i \\epsilon \\Bbb R^d)\\)来扩大每个点的局部上下文,然后将扩大的局部上下文聚合起来用于点特征表示。
Bilateral Augmentation
- 对于每一个\\(p_i\\)利用KNN算法找到其领域\\(\\forall p_j \\epsilon N_i(p_i)\\)和其领域特征\\(f_j\\)。将\\(p_i\\)的绝对位置和其领域的相对位置合并为局部上下文\\(G_{\\psi}\\)。\\(G_{\\psi}(p_i)=[p_i;p_j-p_i]\\)表示三维空间中的局部几何上下文,\\(G_{\\psi}(f_i)=[f_i;f_j-f_i]\\)表示特征空间中的局部语义上下文。
- 然而,\\(G_{\\psi}(p_i)\\)和\\(G_{\\psi}(f_i)\\)可能不足以代表社区由于两个原因:1) 在3D空间中固定约束下的严格形成可能削弱\\(G_{\\psi}\\)在高维特征空间中的泛化能力,以及2) \\(G_{\\psi}\\)邻域在接近区域的表示中可能具有冗余。
- 为了解决这些问题并增强特征的泛化能力,可以通过添加双边偏移来增强局部上下文,这将移动邻域点并将他们密集地附属到邻域的中心。
- 首先,基于\\(G_{\\psi}(f_i)\\)丰富的语义信息来扩充\\(G_{\\psi}(p_i)\\),在\\(G_{\\psi}(f_i)\\)上应用MLP来估计双边偏移\\(\\tilde{p}_j\\):
- 之后,利用\\(\\tilde{p}_j\\)来增强局部几何上下文:\\(\\tilde{G}_{\\psi}(p_i)=[p_i;p_j-p_i;\\tilde{p}_j]\\)。
- 然后,利用增强的局部几何上下文\\(\\tilde{G}_{\\psi}(p_i)\\)进一步增强局部语义上下文:
- 得到增强的局部语义上下文 \\(\\tilde{G}_{\\psi}(f_i)=[f_i;f_j-f_i;\\tilde{f}_j]\\)。
- 最后,通过MLPs将\\(\\tilde{G}_{\\psi}(f_i)\\) 和 \\(\\tilde{G}_{\\psi}(p_i)\\) concat起来,得到增强的局部的上下文 \\(\\tilde{G}_i\\) :
Augmentation Loss
- 由于既要为邻域提供3-自由度增强,又要保持密集邻域的几何完整性,所以最好将邻域作为一个整体来考虑,而不是单独考虑邻域。
- 直观地说,通过最小化 L2 距离来鼓励移位邻域的几何中心接近3D空间中的局部质心。
Mixed Local Aggregation
- 虽然非参数对称函数可以有效地总结点的局部信息,但它们不能显式地显示局部差异,尤其是对于共享相似局部上下文的邻近点。
- 为了解决这个问题,文中在给定扩展的局部上下文 \\(\\tilde{G}_i\\) 的情况下,一方面直接从k个邻域中收集最大(显著)特征,以获得邻域的概貌,另一方面通过学习邻域上的高维重心(即加权平均值)来提炼和获得更多细节,最后结合两种类型的信息(局部最大值和均值特征),以精确地将点表示为:
Adaptive Fusion Module
-
虽然通过对下采样点云子集应用级联双边上下文块可以很容易地实现,但是对应的输出特征变得隐含和抽象。因此,有必要恢复提供原始点数的特征地图,并综合解释每个点的编码信息。
-
利用以下算法,进行渐进上采样,直到生成所有N个点的全尺寸表示。
-
具体来说,我们在生成每个全尺寸feature map的上采样过程中,额外总结了\\(φ_m∈R^N\\)的点级信息,以获取不同尺度下的基本点级理解。
-
接下来,通过分析这些点级感知\\(\\{φ_1,φ_2,...,φ_M\\}\\),总体上回归了融合参数\\(\\{φ_1,φ_2,...,φ_M\\}\\)对应于全尺寸的特征图\\(\\{ S_1,S_2,...,S_M\\}\\)。
-
最后,在每个点上自适应地融合用于语义分割的综合特征图\\(S_{out}\\)。
Implementation Details
- Feature Extractor:应用单层MLP(即1×1卷积层,随后是批量归一化和类似ReLU的激活函数)来获得高级紧凑的语义特征。
- Bilateral Context Module:利用FPS来对点云进行下采样。
- Adaptive Fusion Module:对于上采样过程,首先,单层MLP集成了输出要素图的通道信息。然后,使用最近邻插值对更高分辨率的要素地图进行点状插值。此外,对称地附加来自相同分辨率的特征,以便增加邻近点的多样性和清晰度。最后,通过另一个单层MLP合成更高分辨率的特征地图。
- Loss Function:
Experiments
以上是关于阅读笔记--[CVPR2021] Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Ad的主要内容,如果未能解决你的问题,请参考以下文章
论文笔记《Feedforward semantic segmentation with zoom-out features》
论文阅读笔记《Joint Graph Learning and Matching for Semantic Feature Correspondence》
Fully Convolutional Networks for Semantic Segmentation(全卷积网络FCN)
论文笔记----Multi-subject data augmentation for target subject semantic decoding with deep multi-view ad