YOLO系列YOLOv4论文超详细解读2（网络详解）

Posted 2023-03-07 路人贾'ω'

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了YOLO系列YOLOv4论文超详细解读2（网络详解）相关的知识，希望对你有一定的参考价值。

上一篇我们一起读了YOLOv4的论文《YOLOv4：Optimal Speed and Accuracy of Object Detection》（直通车→【YOLO系列】YOLOv4论文超详细解读1（翻译＋学习笔记）），有了初步的印象，论文里面涉及到很多tricks，上一篇介绍的比较简略，我们这篇来详细介绍一下。

一、YOLOv4的简介

YOLOv4一共有如下三点贡献：

（1）开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080ti或2080ti GPU来训练一个非常快速和准确的目标检测器。

（2）验证了最先进的 Bag-of-Freebies和 Bag-of-Specials对象检测在检测器训练时的影响。

（3）对现有的方法进行了改进，使其更加高效，更适合于单个GPU的训练，包括CBN，PAN，SAM等。

二、YOLOv4的网络结构

YOLOv4的整体原理图如下：和v3还是比较接近的

可以看到由以下四个部分组成：

输入端： 训练时对输入端的改进，主要包括Mosaic数据增强、cmBN、SAT自对抗训练

BackBone主干网络： 各种方法技巧结合起来，包括：CSPDarknet53、Mish激活函数、Dropblock

Neck： 目标检测网络在BackBone和最后的输出层之间往往会插入一些层，比如YOLOv4中的SPP模块、FPN+PAN、SAM结构

Head： 输出层的锚框机制和YOLOv3相同，主要改进的是训练时的回归框位置损失函数CIOU Loss，以及预测框筛选的nms变为DIOU nms

下面我们就按着这个顺序来介绍~

三、输入端

Yolov4对训练时的输入端进行改进，使得训练时在单张GPU上跑的结果也蛮好的。比如数据增强Mosaic、cmBN、SAT自对抗训练。

数据增强①CutMix

数据增强的原因：在平时项目训练时，小目标的AP一般比中目标和大目标低很多。而Coco数据集中也包含大量的小目标，但比较麻烦的是小目标的分布并不均匀。Coco数据集中小目标占比达到41.4%，数量比中目标和大目标都要多。但在所有的训练集图片中，只有52.3%的图片有小目标，而中目标和大目标的分布相对来说更加均匀一些。

核心思想：将一部分区域cut掉但不填充0像素，而是随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配。

处理方式：对一对图片做操作，随机生成一个裁剪框Box，裁剪掉A图的相应位置，然后用B图片相应位置的ROI放到A图中被裁剪的区域形成新的样本，ground truth标签会根据patch的面积按比例进行调整。

另外两种数据增强的方式：

（1）Mixup: 将随机的两张样本按比例混合，分类的结果按比例分配

（2）Cutout: 随机的将样本中的部分区域Cut掉，并且填充0像素值，分类的结果不变

数据增强②Mosaic

Yolov4中使用的Mosaic是参考2019年底提出的CutMix数据增强的方式，但CutMix只使用了两张图片进行拼接，而Mosaic数据增强则采用了4张图片，随机缩放、随机裁剪、随机排布的方式进行拼接。

优点：

（1）丰富数据集： 随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好。

（2）batch不需要很大： Mosaic增强训练时，可以直接计算4张图片的数据，使得Mini-batch大小并不需要很大，一个GPU就可以达到比较好的效果。

SAT自对抗训练

自对抗训练(SAT)也代表了一种新的数据增加技术，在两个前后阶段操作。

（1）在第一阶段： 神经网络改变原始图像而不是网络权值。通过这种方式，神经网络对自己执行一种对抗性攻击，改变原始图像，以制造图像上没有期望对象的假象。

（2）在第二阶段： 神经网络以正常的方式对这个修改后的图像进行检测。

通过引入噪音点进行数据增强

cmBN

BN： 无论每个batch被分割为多少个mini batch，其算法就是在每个mini batch前向传播后统计当前的BN数据（即每个神经元的期望和方差）并进行Nomalization，BN数据与其他mini batch的数据无关。

CBN： 每次iteration中的BN数据是其之前n次数据和当前数据的和（对非当前batch统计的数据进行了补偿再参与计算），用该累加值对当前的batch进行Nomalization。好处在于每个batch可以设置较小的size。

CmBN： 只在每个Batch内部使用CBN的方法，若每个Batch被分割为一个mini batch，则其效果与BN一致；若分割为多个mini batch，则与CBN类似，只是把mini batch当作batch进行计算，其区别在于权重更新时间点不同，同一个batch内权重参数一样，因此计算不需要进行补偿。

Label Smoothing类标签平滑

原因：对预测有100%的信心可能表明模型是在记忆数据，而不是在学习。如果训练样本中会出现少量的错误样本，而模型过于相信训练样本，在训练过程中调整参数极力去逼近样本，这就导致了这些错误样本的负面影响变大。

具体做法：标签平滑调整预测的目标上限为一个较低的值，比如0.9。它将使用这个值而不是1.0来计算损失。这样就缓解了过度拟合。说白了，这个平滑就是一定程度缩小label中min和max的差距，label平滑可以减小过拟合。所以，适当调整label，让两端的极值往中间凑凑，可以增加泛化性能。

四、主干网络BackBone

CSPDarknet53

简介：CSPNet（Cross Stage Partial Networks），也就是跨阶段局部网络。CSPNet解决了其他大型卷积神经网络框架Backbone中网络优化的梯度信息重复问题，CSPNet的主要目的是使网络架构能够实现获取更丰富的梯度融合信息并降低计算量。

具体做法：CSPNet实际上是基于Densnet的思想，即首先将数据划分成Part 1和Part 2两部分，Part 2通过dense block发送副本到下一个阶段，接着将两个分支的信息在通道方向进行Concat拼接，最后再通过Transition层进一步融合。CSPNet思想可以和ResNet、ResNeXt和DenseNet结合，目前主流的有CSPResNext50 和CSPDarknet53两种改造Backbone网络。

具体改进点：

①用 Concat 代替 Add，提取更丰富的特征。

②引入 transition layer （1 * 1conv + 2 * 2pooling），提取特征，降低计算量，提升速度。

③将 Base layer 分为两部分进行融合，提取更丰富的特征。

Mish激活函数

简介：Mish是一个平滑的曲线，平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化；在负值的时候并不是完全截断，允许比较小的负梯度流入。Mish是一个与ReLU和Swish非常相似的激活函数，但是Relu在小于0时完全杀死了梯度，不太符合实际情况，所以可以在不同数据集的许多深度网络中胜过它们。

公式：y=x∗tanh(ln(1+ex))

Mish图像：

Mish和Leaky_relu激活函数的图形对比如下：

优点：

（1）从图中可以看出该激活函数，在负值时并不是完全截断，而允许比较小的负梯度流入从而保证了信息的流动

（2）Mish激活函数无边界，这让他避免了饱和（有下界，无上界）且每一点连续平滑且非单调性，从而使得梯度下降更好。

Dropblock正则化

传统的Dropout：随机删除减少神经元的数量，使网络变得更简单。

Dropblock：DropBlock技术在称为块的相邻相关区域中丢弃特征。Dropblock方法的引入是为了克服Dropout随机丢弃特征的主要缺点，Dropout主要作用在全连接层，而Dropblock可以作用在任何卷积层之上。这样既可以实现生成更简单模型的目的，又可以在每次训练迭代中引入学习部分网络权值的概念，对权值矩阵进行补偿，从而减少过拟合。

之前的Dropout是随机选择点(b)，现在随机选择一个区域

Q：全连接层上效果很好的Dropout在卷积层上效果并不好？

中间Dropout的方式会随机的删减丢弃一些信息，但Dropblock的研究者认为，卷积层对于这种随机丢弃并不敏感，因为卷积层通常是三层连用：卷积+激活+池化层，池化层本身就是对相邻单元起作用。

而且即使随机丢弃，卷积层仍然可以从相邻的激活单元学习到相同的信息。因此，在全连接层上效果很好的Dropout在卷积层上效果并不好。所以右图Dropblock的研究者则干脆整个局部区域进行删减丢弃。

五、Neck

SPP

简介：SPP-Net全称Spatial Pyramid Pooling Networks，是何恺明大佬提出的，主要是用来解决不同尺寸的特征图如何进入全连接层的，在网络的最后一层concat所有特征图，后面能够继续接CNN模块。

如下图所示，下图中对任意尺寸的特征图直接进行固定尺寸的池化，来得到固定数量的特征。

具体结构如下：

PAN

YOLOv3中的neck只有自顶向下的FPN，对特征图进行特征融合，而YOLOv4中则是FPN+PAN的方式对特征进一步的融合。引入了自底向上的路径，使得底层信息更容易传到顶部

下面是YOLOv3的neck中的FPN，如图所示：

FPN是自顶向下的，将高层的特征信息通过上采样的方式进行传递融合，得到进行预测的特征图。

YOLOv4中的neck如下：

YOLOv4在原始PAN结构上进行了一点改进，原本的PANet网络的PAN结构中，特征层之间融合时是直接通过addition的方式进行融合的，而Yolov4中则采用在通道方向concat拼接操作融合的，如下图所示。

Q：为什么要把add改为concat？

add： 将两个特征图直接相加，是resnet中的融合方法，基于这种残差堆叠相加，可以有效地减小因为网络层数加深而导致的cnn网络退化问题。add改变特征图像素值，并没有完全保留原本特征图信息，更多的可以看作对原特征图信息的一种补充，深层特征图在卷积过程中丢失了许多细节信息，通过add的方式得以补全，是在二维的平面上对特征图的增强。因此add在进行图像特征增强时使用最佳。

concat： 将两个特征图在通道数方向叠加在一起，原特征图信息完全保留下来，再对原特征图增加一些我们认为是较好的特征图，丰富了特征图的多样性，是在空间上对原特征图的增强，这样在下一次卷积的过程中我们能得到更好的特征图。

SAM

SAM源自于论文CBAM(Convolutional Block Attention Module)的论文，提出了两种注意力机制的技巧。

先来介绍一下CBAM

如下图所示，输入一个特征F，先进行Channel attention module后得到权重系数和原来的特征F相乘，然后在进行Spatial attention module后得到权重系数和原来的特征F相乘，最后就可以得到缩放后的新特征。不仅每个通道有注意力，而且特征图每个位置有注意力。

接着我们来介绍Channel attention module(通道注意力模块)

该模块就是将输入的特征F分别进行全局的Maxpooling与Averagepooling，接着将这两个输入到一个权重共享的MLP，再将这两个进行element-wise summation操作后经过Sigmoid函数会得到权重系数Mc，再将这个权重系数与原来的特征F相乘,就可以得到缩放后的新特征。

我们再看看Spatial attention module(空间注意力模块)

首先对不同的feature map上相同位置的像素值进行全局的Maxpooling与Average pooling，接着将这两个spatial attention map 进行concat，再利用一个7X7的卷积后经过Sigmoid函数会得到权重系数Ms，在将这个权重系数与原来的特征F相乘，就可以得到缩放后的新特征，如下所示: