第19篇 SE-SSD论文翻译

Posted AI浩

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第19篇 SE-SSD论文翻译相关的知识,希望对你有一定的参考价值。

摘要

​ 本文提出了一种基于自集成单级目标检测器(SE-SSD)的室外点云三维目标检测方法。我们的重点是利用我们的公式约束开发软目标和硬目标来联合优化模型,而不引入额外的计算在推理中。具体来说,SE-SSD包含一对teacher 和student ssd,在其中我们设计了一个有效的基于iou的匹配策略,从teacher中过滤软目标,并制定一致性损失对齐student的预测与他们。此外,为了最大限度地利用提炼出来的知识来集成teacher,我们设计了一种新的增强方案来产生形状感知的增强样本来训练student,目的是鼓励student推断出完整的物体形状。最后,为了更好地利用硬目标,我们设计了一个ODIoU损失来监督student与预测盒中心和方向的约束。我们的SE-SSD达到顶级性能相比之前所有出版的作品。此外,它还以超高的推理速度在KITTI基准测试中获得了最高的汽车检测精度(在BEV和3D排行榜上分别排名第一和第二)。

1 简介

​ 为了支持自动驾驶,通常采用激光雷达传感器的3D点云来检测车辆附近的目标。这是一个强大的方法,因为点云随时可用,不管天气(雾还是阳光)和白天的时间(白天还是晚上)。因此,各种基于点云的3D检测器最近被提出。

​ 为了提高检测精度,提取特征的质量是一个重要的因素。这适用于单级和两级探测器。例如,一系列的工作[24,4,25,23]集中于改进区域提议对齐的特征,以更好地细化第二阶段网络。此外,许多方法[3,10,29,12,33,19]试图通过融合RGB图像和3D点云来提取更有分辨力的多模态特征。对于单级检测器,point - gnn[26]采用了一种图神经网络来获得更紧凑的点云表示,而TANet[17]设计了一个精致的三重关注模块来考虑特征智能关系。虽然这些方法提供了重要的见解,但精细的设计往往是复杂的,可能会减缓推理,特别是对于两级探测器。

​ 为了满足实际需求,特别是自动驾驶领域的需要,三维目标检测要求在高精度的基础上提高效率。因此,另一个工作流,例如SASSD[8]和Associate-3Ddet[5],旨在利用辅助任务或进一步的约束来改进特征表示,而不引入额外的计算开销在推理过程中。根据这一工作流程,我们制定了自集成单级目标检测器(SE-SSD),以解决仅基于激光雷达点云的具有挑战性的三维检测任务。

​ 为了提高检测精度,同时追求高效率,我们以[27]为灵感,设计了一对teacher SSD和student SSD的SE-SSD框架。teacher SSD是student的合奏。它产生相对更精确的边界框和信心,作为软性目标来监督student。与人工标注的硬目标(标签)相比,来自teacher的软目标往往具有更高的熵,从而为student提供了更多的信息[9]来学习。因此,我们利用软目标和硬目标与我们的公式约束共同优化模型,而不产生额外的推理时间。为了使student预测的边界框和置信度更好地与软目标对齐,我们设计了一种有效的基于借据的匹配策略来过滤软目标并将其与student预测配对,并进一步制定一致性损失以减少两者之间的不对齐。

​ 另一方面,为了使student SSD能够有效地探索更大的数据空间,我们在传统增强策略的基础上设计了一种新的增强方案,以形状感知的方式生成增强对象样本。通过该方案,我们可以鼓励模型从不完全信息中推断出完整的物体形状。它也是一个即插即用的3D探测器通用模块。此外,在监督训练中,硬目标仍然是必不可少的,因为它们是模型收敛的最终目标。为了更好地利用它们,我们制定了一种新的方向感知距离- iou (ODIoU)损失来监督student在预测的边界盒的中心和方向上的约束。总的来说,我们的SE-SSD是在完全监督的方式下训练的,以最好地提高检测性能,其中所有设计的模块只在训练中需要,所以在推理期间没有额外的计算。

​ 总之,我们的贡献包括:(i)自组装单级目标检测器(SE-SSD)框架,通过我们制定的一致性约束进行优化,以更好地将预测与软目标对齐;(ii)一种新的增强方案,以产生形状感知的增强地物;(iii)一个方向感知的距离- iou (ODIoU)损失来监督探测器使用硬目标。我们的SE-SSD在KITTI基准测试[6]中获得了最先进的3D和BEV汽车检测性能,并在普通CPU-GPU上展示了超高的推理速度(32 FPS),明显优于所有之前发表的作品,如图1所示。

2 相关工作

​ 总的来说,3D探测器分为两种类型:(i)单级探测器直接从输入特征中学习边界框和置信度,以及(ii)两级探测器使用第二阶段的区域提议对齐特征来细化第一阶段预测。因此,两级探测器往往可以从额外的级中获得更高的精度,而单级探测器通常由于网络结构更简单而运行得更快。近期趋势(见图1和表1)显示,单级检波器[8,31]的精度逐渐接近两级检波器[23,25,32]。这促使我们致力于开发一种单级探测器,并以高精度和高速为目标。

​ **两阶段物体检测 :**在这些两阶段的检测器中,PointRCNN[24]使用PointNet[21]融合语义特征和来自区域提议的原始点进行第二阶段的细化。Part-A2[25]利用基于体素的网络提取区域提案特征,以避免歧义,并进一步改进特征表示。类似地,STD[32]通过体素化将区域提议的语义特征转化为紧凑的表示,并减少锚点的数量以提高性能。PV -RCNN[23]同时利用基于点和体素的网络从区域提案内的体素和原始点中提取特征。3D-CVF[33]从多视角图像中获取语义,并在这两个阶段中融合点特征,而CLOCs PVCas[19]则融合图像和点的语义特征来改进预测的可信度。

​ **单阶段物体检测:**VoxelNet[38]提出体素特征编码层从点云中提取特征。PointPillar[11]将点云划分为柱子,以实现高效的特征学习。SECOND[30]改进了稀疏卷积[7,15],有效地从稀疏体素中提取特征。TANet[17]提出了三重注意模块,在特征提取中考虑了特征之间的关联。point - gnn[26]利用一个图神经网络来学习点特征。3DSSD[31]结合了特征采样和基于点的采样来改进分类。Associate-3Ddet[5]从完整的点云中提取特征,监督从不完整的点云中学习到的特征,鼓励模型从不完整的点云中推断。SA-SSD[8]采用与主干并行的辅助网络,通过回归盒中心和语义类来丰富特征。CIA-SSD[8]采用轻量级BEV网络提取鲁棒的空间语义特征,结合欠条感知的置信度修正和DI-NMS更好的后处理。SESS[34]受到[27]的启发,采用半监督策略来解决室内场景中的检测问题,以减少对人工标注的依赖。

​ 与之前的工作不同,我们的目标是利用软目标和硬目标,通过我们的新约束和增强方案,在完全监督的方式中细化功能。此外,与所有之前的单级和两级探测器相比,我们的SE-SSD在KITTI基准[6]中获得了3D和BEV汽车检测的最高平均精度,并且表现出非常高的效率。

3 自组装单级检测器

3.1 总体框架

​ 图2显示了我们的自集成单级目标检测器(SE-SSD)的框架,它有一个teacherSSD(左)和一个studentSSD(右)。不同于以往的室外三维目标检测工作,我们同时使用并训练了两个相同架构的ssd,这样student可以通过增强的样本探索更大的数据空间,并更好地利用老师预测的相关软目标进行优化。为了训练整个SESSD,我们首先用预先训练好的SSD模型对teacher和student进行初始化。然后,从一个输入点云开始,我们的框架有两个处理路径:

  1. 在第一个路径中(图2中的蓝色箭头),teacher从原始的输入点云产生相对精确的预测。然后,我们对预测结果应用一组全局变换,并将其作为软目标来监督studentSSD。
  2. 在第二个路径中(图2中的绿色箭头),我们通过与第一个路径相同的全局变换加上我们的形状感知数据增强(第3.4节)来干扰相同的输入。然后,我们将增加的输入输入给student,并使用我们的一致性损失(第3.2节)来训练它,以使student的预测与软目标相一致;(ii)当我们增加输入时,我们带着它的硬目标(图2(右上角)),用我们的方向感知距离-欠条损失(第3.3节)来监督student。

​ 在培训中,我们对两个SSD模型进行迭代更新:使用上述两个损失优化student,使用标准指数移动平均(EMA)仅使用student参数更新teacher。这样,teacher就可以从student身上获得提炼的知识,产生软目标来监督student。所以,我们把最后一个经过训练的student称为自集成单级目标检测器。

​ **Teacher & Student SSD架构 :**该模型具有与[35]相同的结构,以有效地编码点云,但我们去掉了信心函数和DI-NMS。它包括稀疏卷积网络(SPConvNet)、BEV卷积网络(BEVConvNet)和多任务头(mhead)。BEV的意思是鸟瞰。在点云体素化后,我们找到每个体素的平均三维坐标和点密度作为初始特征,然后使用SPConvNet提取特征,该特征有四个块({2,2,3,3}子流形稀疏卷积[7]层),最后是一个稀疏卷积[15]层。接下来,我们将沿z方向稀疏的三维特征拼接成二维密集的特征,利用BEVConvNet进行特征提取。最后,我们使用MTHead回归边界框并进行分类。

3.2 一致性损失

​ 在三维目标检测中,由于距离和目标遮挡形式的不同,预定义锚点的点云模式可能会有很大的差异。因此,相同硬目标的样本可能有非常不同的点模式和特征。相比之下,每个训练样本的软目标可以提供更多的信息,有助于揭示同一类[9]数据样本之间的差异。这促使我们将相对较精确的teacher预测作为软目标,利用它们来共同优化student与硬目标。据此,我们制定了一个一致性损失来优化student网络的软目标。

​ 在计算一致性损失之前,我们首先设计了一种有效的基于借据的匹配策略,目的是对非常稀疏的户外点云预测的非轴向的teacher盒和student盒进行配对。为了获得高质量的软目标,我们首先过滤掉那些置信度小于τc的预测边界框(teacher和student),从而减少一致性损失的计算。接下来,我们计算每一对剩余student和teacher边界框之间的欠条,并过滤掉欠条小于阈值τI的对,从而避免使用不相关的软目标误导student;我们将N和n0分别表示为盒对的初始数量和最终数量。因此,我们只保留高度重叠的student-teacher对。最后,对于每个student盒,我们将其与拥有最大欠条的teacher边框盒配对,以增加软目标的信心。与硬目标相比,过滤后的软目标通常更接近student的预测,因为它们是基于相似的特征进行预测的。因此,软目标可以更好地引导student对预测进行微调,减少梯度方差,从而获得更好的训练。

​ 与IoU loss不同,Smooth-L1loss[16]在预测中可以均匀地对待所有维度,不偏向任何一个特定的维度,不同维度对应的特征也可以均匀地优化。因此,我们用它来表示我们的边界盒一致性损失( L b o x c \\mathcal{L}_{b o x}^{c} Lboxc),以最小化每对teacher和student边界盒之间的错位误差:

L b o x c = 1 N ′ ∑ i = 1 N 1 ( I o U i > τ I ) ∑ e 1 7 L δ e c  and  δ e = { ∣ e s − e t ∣  if  e ∈ { x , y , z , w , l , h } ∣ sin ⁡ ( e s − e t ) ∣  if  e ∈ { r } \\begin{gathered} \\mathcal{L}_{b o x}^{c}=\\frac{1}{N^{\\prime}} \\sum_{i=1}^{N} \\mathbb{1}\\left(I o U_{i}>\\tau_{I}\\right) \\sum_{e} \\frac{1}{7} \\mathcal{L}_{\\delta_{e}}^{c} \\\\ \\text { and } \\delta_{e}= \\begin{cases}\\left|e_{s}-e_{t}\\right| & \\text { if } e \\in\\{x, y, z, w, l, h\\} \\\\ \\left|\\sin \\left(e_{s}-e_{t}\\right)\\right| & \\text { if } e \\in\\{r\\}\\end{cases} \\end{gathered} Lboxc=N1i=1N1(IoUi>τI)e71Lδec and δe={esetsin(eset) if e{x,y,z,w,l,h} if e{r}
​ {x, y, z}, {w、l、h}, r表示中心的位置,大小和方向的边界框,分别预测的teacher(下标 t)或student(下标s), L δ e c \\mathcal{L}_{\\delta_{e}}^{c} Lδec表示 δ e \\delta_{e} δe S m o o t h − L 1 Smooth-L_{1} SmoothL1 loss和 I o U i IoU_{i} IoUi 表示第 i 个student边界框与所有teacher边界框的最大 IoU。 接下来,为了最小化student和teacher预测置信度的差异,我们制定了分类分数的一致性损失(Lc cls):

L c l s c = 1 N ′ ∑ i = 1 N 1 ( I o U i > τ I ) L δ c c \\mathcal{L}_{c l s}^{c}=\\frac{1}{N^{\\prime}} \\sum_{i=1}^{N} \\mathbb{1}\\left(I o U_{i}>\\tau_{I}\\right) \\mathcal{L}_{\\delta_{c}}^{c} Lclsc=N1i=1N1(IoUi>τI)Lδcc
and δ c = ∣ σ ( c s ) − σ ( c t ) ∣ \\delta_{c}=\\left|\\sigma\\left(c_{s}\\right)-\\sigma\\left(c_{t}\\right)\\right| δc=σ(cs)σ(ct)

​ 其中$ \\mathcal{L}{\\delta{c}}^{c} 表 示 表示 \\delta_{c}$的平滑- l1损失,σ(cs)和σ(ct)分别表示student和teacher的sigmoid分类分数。这里我们采用sigmoid函数对两个预测置信值进行归一化,使归一化值之间的偏差保持在一个小范围内。结合式(1)(2),可得整体一致性损失为:

L cons  = L cls  c + L b o x c \\mathcal{L}_{\\text {cons }}=\\mathcal{L}_{\\text {cls }}^{c}+\\mathcal{L}_{b o x}^{c} Lcons =Lcls c+Lboxc

​ 我们为两个术语设置了相同的权重。

3.3 Orientation-Aware Distance-IoU Loss

​ 在有监督的硬目标训练中,经常采用平滑l1损失[16]约束边界盒回归。然而,在室外场景中,由于距离较长和遮挡,很难从稀疏点获取足够的信息来精确预测边界盒的所有维度。为了更好地利用回归边界盒的硬目标,我们设计了方向感知的距离- iou损失(ODIoU),以更加关注预测的边界盒与ground-truth边界盒之间的盒子中心和方向的对齐;参见图3。

​ 受[36]的启发,我们对预测的三维中心和ground-truth边界盒之间的距离施加一个约束,以最小化中心不对准。更重要的是,我们对预测的BEV角设计了一种新的方位约束,旨在进一步减小预测的BEV角与ground-truth box的方位差。在三维物体检测中,这种约束对于鸟瞰图中非轴向盒的精确对齐具有重要意义。同时,我们也发现这种约束是进一步提高检测精度的重要手段。与Smooth-L1损失相比,我们的ODIoU损失增强了盒子中心和方向的对齐,容易从分布在物体表面的点来推断,从而获得更好的性能。总的来说,我们的ODIoU损失是这样表述的:

L b o x s = 1 − IoU ⁡ ( B p , B g ) + c 2 d 2 + γ ( 1 − ∣ cos ⁡ ( Δ r ) ∣ ) \\mathcal{L}_{b o x}^{s}=1-\\operatorname{IoU}\\left(B_{p}, B_{g}\\right)+\\frac{c^{2}}{d^{2}}+\\gamma(1-|\\cos (\\Delta r)|) Lboxs=第64篇ConvNeXt V2论文翻译:ConvNeXt V2与MAE激情碰撞

第64篇ConvNeXt V2论文翻译:ConvNeXt V2与MAE激情碰撞

Python 爬虫篇 - 调用有道翻译api接口翻译外文网站的整篇西班牙文实战演示。爬取西班牙语文章调用有道翻译接口进行整篇翻译

论文|Airbnb Embedding的实践和思考

热烈祝贺人生第一篇论文发表成功

今日论文|谷歌:差分私有机器学习&谷歌:用模拟用户测量推荐系统性能&队列学习&MORE