PicoDet论文译读笔记

Posted songyuc

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PicoDet论文译读笔记相关的知识,希望对你有一定的参考价值。

摘要

在目标检测中如何实现更好的精度-速度均衡是一个具有挑战性的问题。在本文中,作者致力于目标检测中关键组件的优化和神经网络架构的选择,以提升精度和效率。本文探索了anchor-free侧路在轻量级目标检测模型上的应用。本文增强了主干网络的结构;设计了neck部分的轻量型结构,此结果可以提升网络的特征提取能力。本文改进了标签分配策略(label assignment strategy)以及损失函数,使得训练更加得稳定高效。通过这些优化策略,本文创造出新型的实时目标检测器系列,命名为PP-PicoDet,此模型在移动设备上的目标检测实现了卓越的性能。与其它常见的模型相比,PicoDet实现了更好的速度和时延之间的均衡。PicoDet-S使用仅0.99M参数实现30.6%-mAP,与YOLOX-Nano相比,在mAP上具有4.8%的绝对值提升,同时在移动CPU推理时延下降55%;与NanoDet相比,在mAP上具有7.1%的绝对值提升。PicoDet在移动端ARM-CPU上达到了123-FPS(使用Paddle-Lite达到150-FPS),输入图像尺寸为320。PicoDet-S使用仅3.3M参数实现40.9%-mAP,与YOLOv5s相比,在mAP上具有3.7%的绝对值提升,且速度加快44%。代码和预训练模型开源在PaddleDetection仓库。

1 引言

  如图1所示,PicoDet模型在轻量级目标检测中远远优于最先进的结果。

目标检测被广泛应用于许许多多的计算机视觉任务中,包括自动驾驶、机器视觉、智能交通、工业质量检测和目标跟踪等。Two-stage模型常常具有更好的性能;然而,这类资源较高的网络常常会限制其在实际场景中的应用。为了克服这个问题,轻量级移动端目标检测模型已经吸引了越来越多研究者的兴趣,致力于设计更加高效的检测方法。现今YOLO系列【1_YOLOv3, 2_YOLOv4, 3_YOLOv5, 4_YOLOX】的目标检测方法变得十分流行,因为它们很好地考虑了资源的限制。相较于two-stage模型,YOLO系列模型具有更好的效率和较高的精度。然而,YOLO系列模型无法解决下面提到的这些问题:1)需要小心对锚框进行重新设计来适应于不同的数据集。2)正样本和负样本之间的不平衡问题,因为大多数生成的锚框都是负样本。
  近些年来,许多工作致力于发展更加高效的检测架构,例如anchor-free的检测器。FCOS【5_FCOS】解决了 GT labels之间重合的问题。相较于其它的anchor-free检测方法,FCOS不需要复杂的超参数调整。然而,大多数anchor-free模型都是用于大规模服务器的模型。有少数方法如NanoDet和YOLOX-Nano4_YOLOX】既是anchor-free也是移动端的检测模型。其中的问题是轻量级anchor-free模型常常难以实现精度和效率之间的平衡。因此在本文中,受到FCOS和GFL【7_GFL】的启发,本文提出一种移动端友好且高效的anchor-free检测模型,命名为PP-PicoDet。总的来说,本文的主要贡献如下:

  • 本文使用CSP(Cross Stage Partial)结构来构建CSP-PAN作为neck部分。CSP-PAN用 1 × 1 1\\times1 1×1卷积将neck所有分支的输入通道数全部统一为相同的通道数(96),从而能够有效的增强网络的特征提取能力,且减少网络参数。本文还将 3 × 3 3\\times3 3×3可分离卷积增加到 5 × 5 5\\times5 5×5可分离卷积(替换ShuffleNetv2中的Channel-Shuffle操作),从而增大感受野(reception field)。
  • 标签分配策略(label assignment strategy)在目标检测中是十分重要的。

以上是关于PicoDet论文译读笔记的主要内容,如果未能解决你的问题,请参考以下文章

ShuffleNetv2论文译读笔记

ATSS论文的译读笔记

MobileNetv3论文译读笔记

KaimingInit论文的译读笔记

CBNetV2论文的译读笔记

CBNetV2论文的译读笔记