RangeNet++ 解读快速准确的激光雷达语义分割
Posted AI 菌
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RangeNet++ 解读快速准确的激光雷达语义分割相关的知识,希望对你有一定的参考价值。
文章目录
一、RangeNet++ 介绍
RangeNet++ 发表于2019年,是基于激光点云的语义分割网络,可实时地应用在自动驾驶领域。为了获得准确的结果,作者提出了一种新的后处理算法,该算法能较好地处理由中间表示引起的问题,例如离散化错误和模糊的CNN输出。实验表明,该方法优于当时最先进的方法,同时能在单个嵌入式 GPU 上在线运行。
二、提出背景
语义场景理解中的一个重要任务是语义分割任务。语义分割为输入模态中的每个数据点分配一个类标签。在本文中,作者明确解决了旋转 3D LiDAR 的语义分割问题,例如常用的 Velodyne 扫描仪。不幸的是,目前可用于 LiDAR 数据语义分割的大多数最先进的方法要么没有足够的表示能力来处理任务,要么计算成本太高而无法以帧速率运行。这使得它们不适合辅助支持自动驾驶汽车的任务,而解决这些问题是这项工作的目标。
本文的主要贡献在于提出了一种用于准确、快速、仅限 LiDAR 的语义分割的新方法。作者通过对输入点云的球面投影进行操作来实现这一点,即类似于距离图像的 2D 图像表示,因此利用旋转 LiDAR 传感器检测点的方式。该方法可使用任何 CNN 作为主干来推断图像每个像素的完整语义分割。这产生了一种有效的方法,但可能会导致由离散化或模糊的 CNN 输出引起的问题。
本文通过使用语义重建原始点有效地解决了这些问题,而无需丢弃原始点云中的任何点,而不管基于图像的 CNN 的分辨率如何。这个后处理步骤也在线运行,对图像表示进行操作,并为提高效率而量身定制。该方法可以在恒定时间内为每个点计算最近邻,并利用基于 GPU 的计算。这使我们能够比传感器的帧速率准确且更快地推断出 LiDAR 点云的完整语义分割。由于该方法与任何基于范围图像的 CNN 主干一起运行,因此我们将其称为 RangeNet。
总之,本文提出三个关键主张:
- 准确地对激光雷达点云进行语义分割,显着超越了现有技术;
- 为完整的原始点云推断语义标签,无论 CNN 中使用的离散化级别如何,都避免丢弃点;
- 在可轻松安装在机器人或车辆中的嵌入式计算机上,并以 Velodyne 扫描仪的帧速率工作。
三、RangeNet++ 方法
本文目标是实现点云的准确和快速语义分割,以使自主机器能够及时做出决策。为了实现这种分割,提出了一种基于投影的 2D CNN 处理输入点云,并利用每个激光扫描的 range 图像来执行语义推理。
RangeNet++ 原理分为四个步骤,如图 2 所示。这四个步骤将在以下小节中详细讨论:
- (A)将输入点云转换为距离图像表示,即 range 图像;
- (B)2D 图像完全卷积语义分割;
- (C)从原始点云中恢复所有点的从 2D 到 3D 的语义转换,无论使用的距离图像离散化如何;
- (D)基于有效距离图像的 3D 后处理以清除点云中的点云,使用在所有点上运行的基于 GPU 的快速 kNN 搜索,消除不希望的离散化和推理伪影。
(1)点云到 range 图像的转换
多个 LiDAR 传感器(例如 Velodyne 传感器)以类似距离图像的方式表示原始输入数据。每一列代表激光测距仪阵列在一个时间点测量的距离,每一行代表每个测距仪的不同转向位置,这些测距仪以恒定速率发射。然而,在高速行驶的车辆中,这种旋转的速度不足以忽略这种“卷帘”行为产生的倾斜。为了在每次扫描时获得更几何一致的环境表示,我们必须考虑车辆运动,导致点云不再包含每个像素的距离测量值,但包含其他一些像素的多个测量值。为了获得完整 LiDAR 点云的准确语义分割,我们的第一步是将每个去偏斜的点云转换为 range 表示。
因此,本文首先将点云以球坐标系表示,然后转换成 Range 图像。从3D到2D的转换过程如下公式所示:
(2)全卷积分割网路
经过球面映射得到 2D 的 Range 图像,通过设计好的全卷积分割网络,对其进行语义分割,从而得到 2D 图像对应位置上的分割结果。本文采用的分割网络是一种常见的全卷积分割网络结构,于传统图像领域的不同在于,只对 Range 图像的 W 方向进行下采样,H 方向维持不变。
在训练期间,该网络使用随机梯度下降和加权交叉熵损失进行端到端优化。目标损失函数设计如下:
(3)从 range 图像重建点云
从距离图像表示映射到点云的常见做法是使用距离信息、像素坐标和传感器内在校准来实现映射。然而,由于最初是从点云生成距离图像,这可能意味着从原始表示中删除了大量的3D点。当使用较小的图像以使 CNN 的推理更快时,这一点尤其重要。例如,将 130 000 个点投影到 [64 × 512] range 图像的扫描将仅表示 32768 个点,对每个像素的截锥体中最近的点进行采样。因此,为了推断语义云表示中的所有原始点,本文对初始渲染过程中获得的所有数据使用所有 (u, v) 对,并使用与每个点对应的图像坐标对距离图像进行索引。这可以在下一个后处理步骤发生之前在 GPU 中以极快的速度执行,并且它会以无损方式为整个输入扫描中存在的每个点生成语义标签。
(4)点云后处理
本文提出了一种直接在输入点云中运行的快速、支持 GPU 的 k 最近邻 (kNN) 搜索。这使我们能够为语义点云中的每个点找到扫描中最接近 3D 的 k 个点的共识投票。由于在 kNN 搜索中很常见,我们还为搜索设置了一个阈值,我们称之为截止,设置被认为是近邻的点的最大允许距离。对 k 个最近点进行排序的距离度量可以是范围内的绝对差值,也可以是欧几里得距离。虽然,我们也尝试使用缓解作为惩罚条款,这对我们的经验没有帮助。从现在开始,我们将考虑使用绝对距离差作为距离来解释算法,但欧几里德距离的工作原理类似,尽管计算速度较慢。
四、实验评估
(1)实验设置
1)数据集
选择 KITTI 数据集进行实验,该数据集由超过 43000 次扫描组成,其中序列 00 到 10 的超过 21000 次可用于训练,序列 11 到 21 的其余扫描用作测试集。本文使用序列 08 作为超参数选择的验证集,并在剩余的训练序列上训练本文提出的方法。总体而言,该数据集提供了 22 个类别,其中 19 个类别通过本文的基准方法在测试集上进行评估。
2)超参数选择
RangeNet 模型的所有超参数都是在验证集上选择和评估的(序列 8)。对于所有主干训练,本文使用
1
0
−
3
10^{−3}
10−3 的学习率,每个 epoch 衰减 0.99,并训练 150 个 epoch。对于所有 CNN 主干,在不到 150 个 epoch 内实现了收敛。对于所有最先进的方法,还在验证集上选择了超参数。
3)评价标准
为了评估标记性能,我们在所有类上使用常用的平均 Jaccard 指数或平均交叉联合(IoU)度量,mIoU,由下式给出:
为了更好地评估预测精度方面的性能,提出了一个额外的评估指标,称之为边界 IoU。该度量以与标准 IoU 相同的方式定义,但仅适用于由额外参数定义的点子集,该参数考虑了一个点与传感器的自遮挡有多远,这表现为标签的变化在范围图像中。该指标旨在显示本文的算法可以在多大程度上帮助语义点云中的“类阴影”错误标签投影。
(2)对比实验
下表展示了使用 21 层和 53 层的 RangeNet 主干与 7 种其他基线方法之间的差异。本文提出的 RangeNet 基线,即使没有清洗,对于所有输入分辨率,它仍然是一个可靠的基准。我还展示了我们的方法 RangeNet++ ,其中包括我们的 kNN 后处理,始终胜过其未处理的 RangeNet 对应物,显示了我们的 kNN 搜索的功效。与 CRF 不同,kNN 清理对于除一类以外的所有类别都更好,这也是原始 SqueezeSeg 论文得出的结论,即使整体 IoU 更高。
(3)消融实验
第二个实验显示了验证集中 k 和 S 参数的影响。对于 4 个参数 k、S、σ 和截止值中的每一个,我们选择了广泛的值,并评估了对所有输入分辨率的 RangeNet53 主干的推理结果进行后处理的结果。图 5 显示了每个参数集的验证集中 IoU 的归一化结果,对于各种 k 和 S 以及 σ 和截止值的 argmax。结果还表明,我们可以使用小内核和绝对距离差作为欧几里德距离的代理获得类似的结果。这支持了我们的说法,即距离差是图像中点越近的实际距离的良好代表。
(4)后处理影响
下图显示了到边界的不同距离的 IoU 值和边界 IoU 值。请注意,我们的后处理方法不仅将 IoU 分数提高了几个百分点,而且显着提高了边界距离参数值较低时的边界 IoU 分数。这意味着我们的方法对于帮助解决第 2 节中描述的标签“流血”或“阴影”的情况特别有用。 III-D。另一个重要结论是,在整个边界距离范围内和 IoU 中,使用快速计算距离差异和实际欧几里得距离之间只有边际差异,这支持我们的声明,即它是一个很好的近似值。
(5)运行时间
本实验旨在支持我们的说法,即该方法可以使用单个 GPU 在移动平台上在线运行。表 II 显示了主干的运行时间、不同的后处理距离函数(最佳参数)以及所需的总时间。
五、结论
在这项工作中,本文提出了一个快速准确的框架,用于对旋转 LiDAR 传感器记录的点云进行语义分割。本文的主要贡献是一种新颖的深度学习支持方法,该方法利用 range 图像和 2D 卷积,以及一种新颖的、GPU 加速的后处理方法,在整个 LiDAR 扫描的推理过程中恢复一致的语义信息。
实验评估表明,本文在距离图像上运行的改进后的 2D 深度 CNN 在 LiDAR 点云语义分割方面的表现优于当前最先进的技术。此外,高效的、支持 GPU 的后处理可以通过恢复在激光扫描去歪斜过程中丢失的重要边界信息、有损离散化为代理表示以及通过沙漏进行推理来进一步改进这些结果。
总体而言,本文提出的方法在准确性和运行时间方面均优于现有技术,朝着用于自动驾驶汽车和机器人语义分割的传感器冗余迈进了一步。
以上是关于RangeNet++ 解读快速准确的激光雷达语义分割的主要内容,如果未能解决你的问题,请参考以下文章
Spark机器人-./onekey解读-让SPARK使用激光雷达进行导航
Toronto-3D:用于城市道路语义分割的大规模移动激光雷达数据集
IDA-3D 解读基于实例深度感知的自动驾驶立体视觉三维目标检测