解读SSD目标检测方法

Posted 2023-04-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了解读SSD目标检测方法相关的知识，希望对你有一定的参考价值。

参考技术A 论文链接： https://arxiv.org/pdf/1512.02325.pdf
tensorflow源码链接： https://github.com/balancap/SSD-Tensorflow

SSD是YOLO之后又一个引人注目的目标检测结构，它沿用了YOLO中直接回归 bbox和分类概率的方法，同时又参考了Faster R-CNN，大量使用anchor来提升识别准确度。通过把这两种结构相结合，SSD保持了很高的识别速度，还能把mAP提升到较高的水平。

原作者给了两种SSD结构，SSD 300和SSD 512，用于不同输入尺寸的图像识别。本文中以SSD 300为例，图1上半部分就是SSD 300，下半部分是YOLO，可以对比来看。SSD 300中输入图像的大小是300x300，特征提取部分使用了VGG16的卷积层，并将VGG16的两个全连接层转换成了普通的卷积层（图中conv6和conv7），之后又接了多个卷积（conv8_1，conv8_2，conv9_1，conv9_2，conv10_1，conv10_2），最后用一个Global Average Pool来变成1x1的输出（conv11_2）。

a、重新启用了Faster R-CNN中anchor的结构
在SSD中如果有多个ground truth，每个anchor（原文中称作default box，取名不同而已）会选择对应到IOU最大的那个ground truth。一个anchor只会对应一个ground truth，但一个ground truth都可以对应到大量anchor，这样无论两个ground truth靠的有多近，都不会出现YOLO中bbox冲突的情况。

b、同时使用多个层级上的anchor来进行回归
作者认为仅仅靠同一层上的多个anchor来回归，还远远不够。因为有很大可能这层上所有anchor的IOU都比较小，就是说所有anchor离ground truth都比较远，用这种anchor来训练误差会很大。例如图2中，左边较低的层级因为feature map尺寸比较大，anchor覆盖的范围就比较小，远小于ground truth的尺寸，所以这层上所有anchor对应的IOU都比较小；右边较高的层级因为feature map尺寸比较小，anchor覆盖的范围就比较大，远超过ground truth的尺寸，所以IOU也同样比较小；只有图2中间的anchor才有较大的IOU。通过同时对多个层级上的anchor计算IOU，就能找到与ground truth的尺寸、位置最接近（即IOU最大）的一批anchor，在训练时也就能达到最好的准确度。

SSD的优点在前面章节已经说了：通过在不同层级选用不同尺寸、不同比例的anchor，能够找到与ground truth匹配最好的anchor来进行训练，从而使整个结构的精确度更高。
SSD的缺点是对小尺寸的目标识别仍比较差，还达不到Faster R-CNN的水准。这主要是因为小尺寸的目标多用较低层级的anchor来训练(因为小尺寸目标在较低层级IOU较大)，较低层级的特征非线性程度不够，无法训练到足够的精确度。
下图是各种目标识别结构在mAP和训练速度上的比较，可以看到SSD在其中的位置：

详细解读目标检测经典算法-SSD

学习目标：

知道SSD的多尺度特征图的网络
知道SSD中先验框的生成方式
知道SSD的损失函数的设计

目标检测算法主要分为两类：

Two-stage方法：如R-CNN系列算法，主要思路就是通过Selective Search或者CNN网络产生一系列的稀疏矩阵的候选区域，然后对这些候选区域进行分类和回归，two-stage的方法优势在于准确率度高；
One-stage方法：如YOLO系列方法，主要思路就是均匀地在图片上不同位置进行密集采样，采样时使用不同尺度和长宽比box，然后利用CNN提取特征后直接进行分类和回归，整个过程只需要一步，所以优势在于速度快。我们接下来介绍的SSD方法也是单阶段的算法。

SSD算法的全名是Single Shot MultiBox Detector，Single shot指明了SSD算法属于one-stage方法，MultiBox指明了SSD是多框预测。对于Faster R-CNN，先通过CNN得到候选框，然后进行分类和回归，而YOLO和SSD可以一步完成检测，SSD的特点是：

SSD提取了不同尺度的特征图来做检测，大尺度特征图可以用来检测小物体，而小特征图用来检测大物体；
SSD采用了不同尺度和长宽比的先验框，在faster r-cnn和yoloV2,V3中称为Anchors。

1、 SSD网络结构

SSD是YOLO V1出来后，YOLO V2出来前的一款One-stage目标检测器。SSD用到了多尺度的特征图，在之后的YOLO V3的darknet53中，也是用到了多尺度特征图的思想。较浅层的特征图上，每个cell的感受野不是很大，所以适合检测较小的物体，而在较深的特征图上，每个cell的感受野就比较大了，适合检测较大的物体。

SSD采用VGG16作为基础模型，然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测。如下图所示：

整个特征图分为三部分：

backbone: VGGnet用于图片特征提取的网络
Extra: 用于引出多尺度特征图的网络
Loc和cls: 用于框位置回归和目标分类的网络

1.1 backbone

网络采用VGG16作为基础模型，使用imagenet数据进行预训练后，将conv4-1前一层的maxpooling中池化模式padding改为same(图中对应pytorch中的ceil_mode),使得输出为38x38，Conv4-3就是多尺度特征中的第一个38x38的特征图，因为该层比较靠前，所以在其后面增加了一个L2 Normalization层，对每个像素点在channle维度做归一化。VGG16最后的两个全连接层转换成 3x3 卷积层 conv6和卷积层conv7，同时将最后的池化层由原来的stride=2的 2x2 变成stride=1的 3x3的池化层。

其中conv6使用的Dilated Convolutions，可以翻译为扩张卷积或空洞卷积。与普通的卷积相比，增加了一个扩张率(dilation rate)参数，主要用来表示扩张的大小。扩张卷积与普通卷积的相同点在于，卷积核的大小是一样的，在神经网络中参数数量不变，区别在于扩张卷积具有更大的感受野。如下图所示：

(a) 普通卷积，1-dilated convolution，卷积核的感受野为3 \\times 3 = 9。 (b) 扩张卷积，2-dilated convolution，卷积核的感受野为7 \\times 7 = 49。 © 扩张卷积，4-dilated convolution，卷积核的感受野为15 \\times 15 = 225。

扩张卷积的感受野的计算方法是：

在tensorflow中实现使用的是：(与普通卷积不同的是指定dilation_rate即可)

layers.Conv2D(1024, 3, padding='same',dilation_rate=6, activation='relu'),

从上图中可以看出，卷积核的参数个数保持不变，感受野的大小随着“dilation rate”参数的增加呈指数增长。

1.2 extra部分

为了进行后续的多尺度特征提取，在Backbone后面添加了卷积网络，如下图所示：

新增的Conv8_2，Conv9_2，Conv10_2，Conv11_2提取用于检测的特征图，特征图的大小如下表所示：

红框中的内容是进行多尺度分析的特征图，在加上backbone部分的Conv4_3和Conv7获取的特征图，共提取了6个特征图，其大小分别是 (38, 38), (19, 19), (10, 10), (5, 5), (3, 3), (1, 1)，我们将其送入到loc和cls中进行目标检测。

1.3 loc和cls

在backbone和 Extras 在提取的6个特征图的基础上，进行位置信息和分类信息的提取，其结构如下图所示：

该部分主要有3个支路构成，

PriorBox层，用来生成先验框，也就是在fasterRCNN中的anchorbox，假设先验框种类有3个（一个单元上有3个先验框），一共产生5x5x3=75个先验框
Localization: 采用一次 3\\times3 卷积来进行完成，每个先验框有四个坐标，共有5x5x3x4个预测结果
类别置信度confdence：采用一次 3\\times3 卷积来进行完成，每个先验框有21个类别预测结果（VOC数据集），共有5x5x3x21个预测结果

整个过程如下图所示：

1.3.1 PriorBox层先验框的生成方法

在这里我们着重介绍PriorBox层先验框的生成方法：

SSD一共有6个不同尺度的特征图，每个特征图上设置的先验框数量不同的（同一个特征图上每个单元设置的先验框是相同的，这里的数目指的是一个单元的先验框数目）。

先验框的设置：包括尺度（或者说大小）和长宽比两个方面。

先验框的尺度

先验框的尺度遵守一个线性递增规则：随着特征图大小降低，先验框尺度线性增加，每个先验框的尺度有下式决定：

s_k = s_min + \\fracs_max - s_minm-1(k-1), k\\in[1,m]

其中：

m 指的特征图个数，这里设为5 ，因为第一层（Conv4_3层）是单独设置的。s_k表示先验框大小相对于图片的比例，而 s_min 和 s_max表示比例的最小值与最大值，取值为0.2和0.9。

1、对于第一个特征图，其先验框的尺度比例一般设置为 s_min/2=0.1 ，尺度为 300\\times 0.1=30。

2、对于后面的特征图，先验框尺度按照 s_k 线性增加，增长步长为:

\\lfloor\\frac\\lfloor s_max\\rfloor - \\lfloor s_min\\rfloorm-1\\rfloor=0.17

3、根据上式，我们可以计算出各个尺度 s_k 的取值为0.20, 0.37,0. 54, 0.71, 0.88

4、然后再乘以原图的大小300，再综合第一个特征图的先验框尺寸，则可得各个特征图的先验框尺寸为30,60,111, 162,213,264。

先验框的长宽比

一般选取 a_r\\in 1,2,3,\\frac12,\\frac13，对于特定的长宽比，按如下公式计算先验框的宽度与高度（后面的 s_k均指的是先验框实际尺度，而不是尺度比例）:

w^a_k=s_k\\sqrta_r,\\space h^a_k=s_k/\\sqrta_r

默认情况下，每个特征图会有一个 a_r=1且尺度为 s_k 的先验框，除此之外，还会设置一个尺度为 s'_k=\\sqrts_k s_k+1且 a_r=1的先验框，这样每个特征图都设置了两个长宽比为1但大小不同的正方形先验框。

因此，每个特征图一共有 6 个先验框 1,2,3,\\frac12,\\frac13,1' ，但是在实现时，Conv4_3，Conv10_2和Conv11_2层仅使用4个先验框，它们不使用长宽比为 3,\\frac13 的先验框。

令 n_k为该特征图所采用的先验框数目，那么类别置信度需要的卷积核数量为 n_k，而边界框位置需要的卷积核数量为 n_k\\times 4。由于每个先验框都会预测一个边界框，

所以SSD一共可以预测 38\\times38\\times4+19\\times19\\times6+10\\times10\\times6+5\\times5\\times6+3\\times3\\times4+1\\times1\\times4=8732个边界框，对于一个300x300的图像就有8732个预测结果，是非常的多的，所以说SSD本质上是密集采样。