YOLOv7 | 模型结构与正负样本分配解析

Posted 2022-08-31 Clichong

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了YOLOv7 | 模型结构与正负样本分配解析相关的知识，希望对你有一定的参考价值。

如有错误，恳请指出。

Yolov7的原作者就是Yolov4的原作者。看论文的时候看到比较乱，这里可能会比较杂乱的记录一下我觉得有点启发的东西。对于yolov7的代码，我也没有仔细的看，只是大概的看了下其他博客提到的些细节。所以这里也不会具体的解析代码。

文章目录

1. 相关工作
2. 网络结构
3. 样本分配策略
4. 辅助损失
5. 实验结果与总结

1. 相关工作

我觉得yolov7论文的 Related work 的前两小节写得指导性很大。

当前目标检测的主要优化方向：更快更强的网络架构；更有效的特征集成方法；更准确的检测方法；更精确的损失函数；更有效的标签分配方法；更有效的训练策略

同时还介绍了下模型的重参数化，可以将其看成是一种集成技术。现在可以将模型的重参数化分成两类：模块级集成（module-level ensemble）和模型级集成（model-level ensemble）。

对于模型级重参数化有两种常见的做法，一种是用不同的训练数据训练多个相同的模型，然后对多个训练模型的权重进行平均。另一种是对不同迭代次数下的模型权重进行加权平均。
对于模块级重参数化是在训练期间将模块拆分为多个相同或不同的模块分支，并在推理期间将多个分支模块集成为完全等效的模块。然而，并非所有提出的重新参数化模块都能完美地应用于不同的体系结构。

之后的内容，无论是看单独看文章还是单独看源码，其实都比较难直观的了解整个网路的结构，所以还是要借助其他大佬画图做笔记。

2. 网络结构

无论是在源码中还是在文章里，都无法像yolov6那样直观地查看整个yolov7的backbone，neck和head结构。所以这里也只能自行的配合源码来作图。不过，幸运的是，已经有不少大佬画出了结构图。详细解析见参考资料3,4。

yolov7网络的结构图

先来查看yolov7.yaml的配置，代码作了部分的删减

# parameters
nc: 80  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple

# anchors
anchors:
  - [12,16, 19,36, 40,28]  # P3/8
  - [36,75, 76,55, 72,146]  # P4/16
  - [142,110, 192,243, 459,401]  # P5/32

# yolov7 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [32, 3, 1]],  # 0
	...... 
   [-1, 1, MP, []],
   [-1, 1, Conv, [512, 1, 1]],
   [-3, 1, Conv, [512, 1, 1]],
   [-1, 1, Conv, [512, 3, 2]],
   [[-1, -3], 1, Concat, [1]],  # 42-P5/32  
   [-1, 1, Conv, [256, 1, 1]],
   [-2, 1, Conv, [256, 1, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [[-1, -3, -5, -6], 1, Concat, [1]],
   [-1, 1, Conv, [1024, 1, 1]],  # 50
  ]

# yolov7 head
head:
  [[-1, 1, SPPCSPC, [512]], # 51
   ......
   [-1, 1, Conv, [512, 1, 1]],
   [-2, 1, Conv, [512, 1, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [[-1, -2, -3, -4, -5, -6], 1, Concat, [1]],
   [-1, 1, Conv, [512, 1, 1]], # 101
   
   [75, 1, RepConv, [256, 3, 1]],
   [88, 1, RepConv, [512, 3, 1]],
   [101, 1, RepConv, [1024, 3, 1]],

   [[102,103,104], 1, IDetect, [nc, anchors]],   # Detect(P3, P4, P5)
  ]

这里可以看见，yolov7对于网络的配置，其实是和yolov5是一致的。也就说，大部分是复用了yolov5项目的代码。从yaml文件中，可以看出，其通过一层层的卷积来构建，但是无法直观的区分每一个积木的形状。

在yolov7的配置网络中，RepConv是将3×3卷积、1×1卷积和Identity连接组合在一个卷积层中。MP是最大池化nn.MaxPool2d，Conv是卷积+bn+激活（SiLU），SPPCSPC是在yolov7中新提出的一个SPP结构作为一个小的特征融合模块。最后使用的IDetect和yolov5中是detect头是完全一样的。原始的yolov7结构没有使用辅助的训练头。

class MP(nn.Module):
    def __init__(self, k=2):
        super(MP, self).__init__()
        self.m = nn.MaxPool2d(kernel_size=k, stride=k)

    def forward(self, x):
        return self.m(x)

class Conv(nn.Module):
    # Standard convolution
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):  # ch_in, ch_out, kernel, stride, padding, groups
        super(Conv, self).__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

    def fuseforward(self, x):
        return self.act(self.conv(x))

对于上面贴出来的网络结构图，Rep就是参数重结构化，实现训练和推理过程解耦（但是yolov7这里用的也不多，甚至不是全系列都用上了，只用了部分版本，有点迷）。值得注意的是，这里提出了几个新模块：ELAN、SPPCSPC、MP结构

2.1 ELAN

这个东西在论文上花了一小节去讲：

但是在代码中很难直观的体现，因为源码中他不是构建为一个积木，而是由更原始的积木Conv来堆叠（这个整个模型搭建的方法有关，无法改变）。

# ELAN
[-1, 1, Conv, [256, 1, 1]],
   [-2, 1, Conv, [256, 1, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [[-1, -3, -5, -6], 1, Concat, [1]],
   [-1, 1, Conv, [1024, 1, 1]],  # 50

# ELAN-W
[-1, 1, Conv, [256, 1, 1]],
   [-2, 1, Conv, [256, 1, 1]],
   [-1, 1, Conv, [128, 3, 1]],
   [-1, 1, Conv, [128, 3, 1]],
   [-1, 1, Conv, [128, 3, 1]],
   [-1, 1, Conv, [128, 3, 1]],
   [[-1, -2, -3, -4, -5, -6], 1, Concat, [1]],
   [-1, 1, Conv, [256, 1, 1]], # 63

其可以表示为：

2.2 SPPCSPC

代码：

class SPPCSPC(nn.Module):
    # CSP https://github.com/WongKinYiu/CrossStagePartialNetworks
    def __init__(self, c1, c2, n=1, shortcut=False, g=1, e=0.5, k=(5, 9, 13)):
        super(SPPCSPC, self).__init__()
        c_ = int(2 * c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c1, c_, 1, 1)
        self.cv3 = Conv(c_, c_, 3, 1)
        self.cv4 = Conv(c_, c_, 1, 1)
        self.m = nn.ModuleList([nn.MaxPool2d(kernel_size=x, stride=1, padding=x // 2) for x in k])
        self.cv5 = Conv(4 * c_, c_, 1, 1)
        self.cv6 = Conv(c_, c_, 3, 1)
        self.cv7 = Conv(2 * c_, c2, 1, 1)

    def forward(self, x):
        x1 = self.cv4(self.cv3(self.cv1(x)))
        y1 = self.cv6(self.cv5(torch.cat([x1] + [m(x1) for m in self.m], 1)))
        y2 = self.cv2(x)
        return self.cv7(torch.cat((y1, y2), dim=1))

结构图：

2.3 MP

代码：

# MP-1
[-1, 1, MP, []],
   [-1, 1, Conv, [128, 1, 1]],
   [-3, 1, Conv, [128, 1, 1]],
   [-1, 1, Conv, [128, 3, 2]],
   [[-1, -3], 1, Concat, [1]],  # 16-P3/8  

# MP-2
[-1, 1, MP, []],
   [-1, 1, Conv, [256, 1, 1]],
   [-3, 1, Conv, [256, 1, 1]],
   [-1, 1, Conv, [256, 3, 2]],
   [[-1, -3, 51], 1, Concat, [1]],

结构图：

之前下采样我们通常最开始使用maxpooling，之后大家又都选用stride = 2的3*3卷积。这里作者充分发挥：“小孩子才做选择，大人都要”的原则，同时使用了max pooling 和 stride=2的conv。

而这两者的区别只是通道数的变化。

3. 样本分配策略

详细见参考资料1.

首先，yolov7也仍然是anchor base的目标检测算法，yolov7将yolov5和YOLOX中的正负样本分配策略进行结合，流程如下：

yolov5:使用yolov5正负样本分配策略分配正样本。
YOLOX:计算每个样本对每个GT的Reg+Cla loss（Loss aware）
YOLOX:使用每个GT的预测样本确定它需要分配到的正样本数（Dynamic k）
YOLOX:为每个GT取loss最小的前dynamic k个样本作为正样本
YOLOX:人工去掉同一个样本被分配到多个GT的正样本的情况（全局信息）

其实主要是将simOTA中的第一步“使用中心先验”替换成“yolov5中的策略”。yolov5策略与YOLOX中simOTA策略的融合，相较于只使用yolov5策略，加入了loss aware，利用当前模型的表现，能够再进行一次精筛。而融合策略相较于只使用YOLOX中simOTA，能够提供更精确的先验知识。

yolov6等工作中也都使用了simOTA作为分配策略，可见simOTA确实是能带来很大提升的策略。

参考代码：

class ComputeLossOTA:
    # Compute losses
    def __init__(self, model, autobalance=False):
        super(ComputeLossOTA, self).__init__()
        device = next(model.parameters()).device  # get model device
        h = model.hyp  # hyperparameters

        # Define criteria
        BCEcls = nn.BCEWithLogitsLoss(pos_weight=torch.tensor([h['cls_pw']], device=device))
        BCEobj = nn.BCEWithLogitsLoss(pos_weight=torch.tensor([h['obj_pw']], device=device))

        # Class label smoothing https://arxiv.org/pdf/1902.04103.pdf eqn 3
        self.cp, self.cn = smooth_BCE(eps=h.get('label_smoothing', 0.0))  # positive, negative BCE targets

        # Focal loss
        g = h['fl_gamma']  # focal loss gamma
        if g > 0:
            BCEcls, BCEobj = FocalLoss(BCEcls, g), FocalLoss(BCEobj, g)

        det = model.module.model[-1] if is_parallel(model) else model.model[-1]  # Detect() module
        self.balance = 3: [4.0, 1.0, 0.4]

   
 (c)2006-2024 SYSTEM All Rights Reserved  IT常识