DLT-Net 解读可行驶区域车道线和交通目标的联合检测

Posted AI 菌

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DLT-Net 解读可行驶区域车道线和交通目标的联合检测相关的知识,希望对你有一定的参考价值。

本文发表于 IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS,提出了一种统一的神经网络DLT-Net来同时检测可行驶区域、车道线和交通对象。除此之外,还提出了一个上下文张量来嵌入和共享子网之间的互信息,在不增加大量开销的情况下显著提高了整体性能。

摘要

感知是自动驾驶汽车的一项基本任务,但大多数感知任务通常是独立处理的。我们提出了一种统一的神经网络DLT-Net来同时检测可行驶区域、车道线和交通对象。这三项任务对于自动驾驶最为重要,尤其是在无法获得高清地图和精确定位的情况下。我们不是在解码器中分离任务,而是在子任务解码器之间构造上下文张量,以共享任务之间的指定影响。因此,在多任务学习过程中,每个任务都可以从其他任务中受益。实验表明,在具有挑战性的BDD数据集中,我们的模型在任务精度和总体计算效率方面优于传统的多任务网络。

一、引言

我们的方法类似于语义切分方法[5]、[6]、[11]、[12]。主要区别在于:(1)对于可行驶区域和车道标记任务,可行驶区域和车道标记可以看作是语义切分中众多类别中的两个。不同的是,在本文中,车道标记属于可行驶区域,因此车道标记有两个标签,而在语义分割中,一个像素只有一个标签。(2)对于交通对象任务,交通对象也可以被视为语义分割中的众多类别之一。不同的是,在我们的方法中,交通对象是一个检测任务,在语义分割中无法得到对象级的结果。

基于激光雷达和基于雷达的方法[13]–[15]是感知的重要组成部分。这些传感器很容易获得准确的深度信息,但缺乏丰富的语义信息。具体而言,使用激光雷达或雷达很难准确探测可行驶区域和车道线。因此,本文采用摄像机来处理这三个任务。

本文提出了一种统一的神经网络DLT-Net,对可行驶区域、车道线和交通目标进行联合检测。图1是输入图像和检测结果的示例。最重要的是,我们提出了一个上下文张量来嵌入和共享子网之间的互信息。这种设计是我们方法的核心,在不增加大量开销的情况下显著提高了整体性能。 与每个任务的串行处理相比,DLT Net潜在地节省了计算资源。这在移动机器人中至关重要,因为计算资源是有限的。我们工作的两个贡献是:

  • 将可行驶区域、车道线和交通目标检测集成到一个框架中
  • 设计了上下文张量,通过融合驱动区域解码器中的特征映射和其他两个解码器,在任务之间共享互信息

二、相关工作

大多数已发表的论文分别处理上述三项任务。本部分首先介绍了三个课题的研究进展。然后介绍了一些重要的多任务网络。

A.可行驶区域检测

在可驾驶区域检测方面,大多数已发表的论文都试图从网络结构、学习方法和数据扩充方面提高性能。在RBNet[20]中,实现了贝叶斯模型,RBNet可以同时学习估计道路和道路边界。在[21]中,Han等人提出了一种基于生成性对抗网络(GANs)的半监督学习(SSL)道路检测方法和一种基于条件GANs的弱监督学习(WSL)方法。参考文献[22]提出了一种随机数据增强方法,用于增强道路检测中的泛化。所有这些方法都在KITTI基准上显示了竞争结果[23]。

B.车道线检测

车道线检测是智能交通领域的一个基本课题。许多传统方法[24]–[26]显示出良好的效果,并已在行业中得到应用。近年来,为了提高车道线检测的鲁棒性,出现了许多基于学习的方法。Neven等人提出了一种检测车道线的实例分割方法[27]。该方法将每条车道线视为一个实例。Pan等人提出了空间CNN(SCNN)[3],它将传统的深层逐层卷积推广到特征地图中的逐层卷积,从而实现了一层中跨行和跨列像素之间的消息传递。所有这些方法都在TuSimple基准上取得了优异的结果[28]。

C.交通目标检测

交通目标检测是计算机视觉中的一项经典任务。近年来,由于深度学习方法的发展,这一领域取得了相当大的进展。大多数目标检测方法可分为两类,基于区域建议的方法和一步方法。在基于区域建议的方法中,首先生成区域建议,然后利用区域建议中的特征对类别进行分类并回归位置。更快的R-CNN[29]和R-FCN[30]就是典型的例子。更快的R-CNN提出区域建议网络(RPN),它使用神经网络生成区域建议。R-FCN在ROI池层中插入位置敏感的得分图。更快的R-CNN和R-FCN都大大提高了检测速度和准确性。SSD[31]和YLO[32]是一步法的代表。它们将类别分类和本地化回归同步结合起来。随后,FSSD[33]、YOLO9000[34]和YOLOv3[35]在其基础上不断发表,推进了目标检测研究。

与统一的网络方法相比,这些单独的网络在智能交通应用中存在缺点。在移动机器人中,作为智能交通工具,计算资源受到空间和散热的限制。因此,在实际应用中使用统一的网络是合理的。

D.多任务网络

有些作品试图使用统一的网络来组合多个任务。Mask R-CNN[9]将即时分割与对象检测相结合。它使用轻量级网络来增强更快的R-CNN的分割能力[29]。BlitzNet[36]实现了类似的功能,它是一种用于场景理解的实时神经网络。所有这些网络都是使用统一网络将多个感知任务结合起来的好例子。然而,它们更像是计算机视觉方法,而不是智能交通方法。网络不能直接应用于交通场景,即它们不是为智能交通系统中的三种感知任务而设计的。MultiNet[10]被提出用于联合分类、检测和语义分割。它实现了道路分割任务的最新技术。该体系结构共享同一个编码器,并分为三个解码器,用于三项任务。整个网络可以使用多任务学习算法进行端到端的训练。然而,这种体系结构有其自身的缺点。它们的解码器是相互独立的,因此,他们无法从训练过程中的其他任务中获益。同时,由于基于单元的方法,输入图像的大小是固定的。

三、 DLT-NET

本节详细介绍了DLT网络的体系结构。如图3所示,我们的网络简单有效。我们的目标是使用统一网络检测可行驶区域、车道线和交通对象。网络共享一个编码器,每个任务分为三个解码器。不同的部分用不同的颜色表示。在解码器中,我们设计了上下文张量结构来融合三个任务的特征映射。整个网络可以进行端到端的训练。

A.编码器

编码器通常用于提取丰富的图像特征,有利于后续的检测任务。有许多已出版的主干CNN结构[37]–[39]。本文采用VGG16[37]和特征金字塔结构[40]作为编码器。首先,通过VGG16使用卷积层和池层生成五种不同大小的特征图。假设输入图像的大小为(W,H,C),分别表示图像的宽度、高度和通道。最后一层的尺寸应为(W/16,H/16,512)。然后在此处删除所有完全连接的层。

已经证明,深度特征和浅层特征对于感知任务都很重要[41],[42]。为了将深度特征与浅层特征相结合,我们按照[42]的策略融合相邻层。融合方法是元素平均运算。三个最深的特征图被融合,最终特征图的大小应该是(W/4,H/4,256)。最后的特征映射用于为三个解码器提供信息。

B.解码器

1)可行驶区域分支:可驾驶区域分支用绿色表示。可驾驶区域检测可以看作是语义分割中一个特殊的二值分类问题。初始要素图的大小为(W/16,H/16,128)。我们遵循[43]的思想,恢复输入图像的原始大小。可驱动区域分支的最终输出特征图的大小为(W,H,2)。这两个通道指示每个像素在可驱动区域和背景中的可能性。

2)上下文张量:这是我们架构的关键部分。不是将每个分支分开[10],我们设计的上下文张量,用于将可行驶区域分支中的特征图与其他两个分支融合。

在这种情况下,可行驶区域包含所有车道线,非可行驶区域覆盖所有潜在交通对象。交通对象很可能是可行驶区域边界的一部分。如图1(b)所示,周围车辆占用的区域必须是不可通行的,车道线必须出现在可行驶区域。因此,可驾驶区域对其他两项任务具有实际指导意义。例如,在其他检测器中,车道线很容易与路缘混淆。由于车道线仅存在于可行驶区域,因此我们的模型具有使用上下文张量区分车道线的强大能力。

基于这些考虑,我们构建了上下文张量来共享任务之间的指定影响。在上下文张量中,使用连接操作融合特征映射。我们的模型中使用了两个上下文张量。第五部分的实验表明了上下文张量的优势

3)车道线支路:车道线部分使用橙色显示。车道线分支与可行驶区域的结构相同。融合特征图的大小应为(W/16、H/16、256)。最终的特征地图也有两个通道,指示车道线和背景的每个像素的可能性。

4)交通对象分支:红色部分是交通对象分支。如第三节所述,基于区域的方法和基于一步的方法各有优势。这项工作遵循了[44]中的策略,以提高检测精度,同时保持较高的运行速度。其核心思想是用焦损函数代替原有的损耗函数。在使用上下文张量后,将网络分为两部分,一部分用于分类,另一部分用于边界盒回归。

C.损失函数与训练

使用多任务丢失训练整个网络。方程(1)是总损失函数,它是四个部分的总和。

整个编码器在ImageNet数据集上进行预训练[45]。BDD数据集[46]用于微调整个网络。在这项工作中,DLTNet不是逐步训练方法[29],而是端到端地训练。学习速率设置为 1 0 − 4 10^−4 104 随着 5 ∗ 1 0 − 3 5 * 10^−3 5103 的衰减.

四、实验

A.数据集和实验设置

BDD数据集[46]已经发布,用于自主驾驶的研究。这是一个大数据集,天气、场景和时间各不相同。智能交通领域不同数据集[23]、[28]、[47]之间的比较见表一。请注意,仅统计标记图像。BDD数据集具有丰富的注释,包括可行驶区域、交通对象和车道标记。由于这三种注释类别对于我们的网络是必需的,因此选择BDD数据集来训练整个网络。BDD数据集共有100K个图像,分为三类:70K用于训练,10K用于验证,20K用于测试。我们在培训和测试过程中遵循官方标准。联合平均交叉口(mIoU)用于评估可行驶区域结果,平均精度(mAP)用于交通目标评估。

MultiNet 以其执行多任务学习的能力而闻名。它在KITTI数据集中实现了最先进的可驾驶区域检测任务。在这项工作中,使用BDD数据集对MultiNet 进行重新训练。然后将其与我们的网络在可行驶区域和交通目标检测任务直接进行比较。ERFNet[11],[12]在Cityscapes数据集中取得了有竞争力的结果。更快的R-CNN[29]以其基于PRN的网络来检测物体而闻名。将这两种基于单任务的方法分别在可行驶区域和交通目标检测任务中与我们的方法进行了比较。

基本DLT网络也用于计算上下文张量。基本DLT网络是没有上下文张量结构的DLT网络。换句话说,解码器在基本的DLT网络中完全分离。我们的CPU是Intel(R)Xeon(R)E5-2630 v4,我们的GPU是NVIDIA GTX TITAN Xp。

B.可行驶区域结果

结果见表二,MultiNet的性能比我们的基本模型高出0.3%,DLTNet的性能比MultiNet和ERFNet分别高出0.5%和3.4%。上下文张量在可驾驶区域检测中没有太大区别。总之,我们的模型与MultiNet具有竞争力。

并对基本DLT网络与DLT网络进行了定性比较。图4显示了一些比较。置信阈值设置为0.1适用于两个网络。DLT网络的可驱动面积结果更完整。DLT网络显示较少的误报和漏报,尤其是在车道标记的区域。

C.交通目标结果

对于交通目标检测,我们还使用BDD数据集评估了四个模型。结果见表III。请注意,此处仅考虑车辆检测结果,因为MultiNet只能检测车辆。由于采用了金字塔编码器,DLT网络具有更高的召回率,并且具有检测各种大小物体的强大能力。我们的基本模型比MultiNet和Faster R-CNN性能好2.5%和7.1%。使用上下文张量结构,准确度提高了5.7%,这是目标检测领域的重大改进。


图5显示了定性结果。两个网络的置信阈值都设置为0.5。在图5 (a)中,使用基本DLT-Net的假阳性部分不在道路区域,这是不合理的。借助上下文张量,在图5 (b)中完全消除了这种假阳性。这是因为在可行驶区域和不可通行区域的交界处周围车辆存在的概率很大。在上下文张量的作用下,远离可驾驶区域的车辆置信度较低。

D.车道线结果

我们的网络只能分割属于车道线的像素。然而,在现实中,平滑的曲线是车道线检测的理想结果。因此,在DLT-Net输出的基础上拟合了一条二次曲线。由于BDD数据集中没有车道线评价方法,我们采用定性方法对车道线检测结果进行评价。图6是车道线检测结果,如果没有上下文张量,车道线很容易与路缘混淆,导致误报。

图8是DLT-Net的结果。绿色区域为检测到的可行驶区域,红色边框为车辆,橙色线为车道线。我们的模型在大多数情况下都工作得很好。由于上下文张量结构,可行驶区域对目标和车道线具有适当的引导作用。因此,我们的模型可以很容易地区分有交通标志或树木的车辆,这对许多其他检测器来说是一个挑战。同时,该模型能较好地分离车道线和路缘。

E.缺陷分析

图7显示了使用DLT-Net的一些缺点。每个图像代表了每个任务的错误结果。在图7 (a)中,泽西障碍物经常被错误地判断为可驾驶区域的一部分。泽西路障与道路外观相同,但车辆驶入泽西路障是危险的。在图7 (b)中,我们的模型仍然不能适应严重的反射场景,在这种场景下检测器会丢失大部分车辆。在图7 ©中,BDD数据集中有些车道线是间歇性的,我们的方法不能很好地预测破碎的车道线。所有这些缺点都需要在未来得到改善。

五、结论

本文提出了DLT-Net,一种联合检测可行驶区域、车道线和交通目标的统一网络。这三个任务被认为是无人驾驶汽车最关键的感知任务。该网络在BDD数据集的所有三个任务中都显示了具有竞争力的性能。在DLT-Net中设计的上下文张量显著提高了检测精度,使其性能优于MultiNet。结合智能交通应用的特点,统一网络与分离任务相比具有固有的优势。此外,上下文张量结构在提高检测精度方面具有固有的优势。

以上是关于DLT-Net 解读可行驶区域车道线和交通目标的联合检测的主要内容,如果未能解决你的问题,请参考以下文章

自动驾驶感知系统实现(车道线检测和拟合目标检测与跟踪道路可行驶区域分割深度估计图像视野到BEV空间映射像平面到地平面映射)

全景驾驶感知网络YOLOP部署与实现(交通目标检测可驾驶区域分割车道线检测)

YOLOP 解读You Only Look Once for Panoptic Driving Perception

YOLOP 解读You Only Look Once for Panoptic Driving Perception

YOLOP——全景驾驶感知理论解读与实践上手

论文解读+实践YOLOP 全景驾驶感知 同时处理三大视觉任务