我们将简要介绍 ResNet 架构，特别是与模型变体调整相关的模块。ResNet 网络由一个输入主干、四个后续阶段和一个最终输出层组成，如图 1 所示。输入主干有一个 7×7 卷积，输出通道有 64 个，步幅为 2，接着是 3 ×3 最大池化层，步幅为 2。输入主干（input stem）将输入宽度和高度减小 4 倍，并将其通道尺寸增加到 64。

从阶段 2 开始，每个阶段从下采样块开始，然后是几个残差块。在下采样块中，存在路径 A 和路径 B。路径 A 具有三个卷积，其卷积核大小分别为 1×1、3×3 和 1×1。第一个卷积的步幅为 2，以将输入长度和宽度减半，最后一个卷积的输出通道比前两个大 4 倍，称为瓶颈结构。路径 B 使用步长为 2 的 1×1 卷积将输入形状变换为路径 A 的输出形状，因此我们可以对两个路径的输出求和以获得下采样块的输出。残差块类似于下采样块，除了仅使用步幅为 1 的卷积。

我们可以改变每个阶段中残差块的数量以获得不同的 ResNet 模型，例如 ResNet-50 和 ResNet-152，其中的数字表示网络中卷积层的数量。

改进版本（一个比一个精度高）

1*1的卷积，最好不用于stride=2，降低特征图尺寸用，原文说会丢失3/4的信息（但是精度为什么没有降很多呢？）

resnet-B 就把降低特征图尺寸的任务交给了3*3的卷积。

resnet-C 把最开始的7*7*64大卷积换成下面图中的表示，红体字表示channel。ResNet-50-C这种修改，虽然对计算量影响不大，不过根据我的经验，对速度的影响应该会比较大。

resnet-D 不用1*1的卷积降低特征图尺寸用，用到的x部分。

技术图片

图 2：三个 ResNet 变体。ResNet-B 修改 ResNet 的下采样模块。ResNet-C 进一步修改输入主干。在此基础上，ResNet-D 再次修改了下采样块。

技术图片

表 5：将 ResNet-50 与三种模型变体进行模型大小（参数数量）、FLOPs 和 ImageNet 验证准确率（top-1、top-5）的比较。

5 训练方法改进

5.1 余弦学习率衰减（pytorch有）

pytorch：scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=5,eta_min=4e-08)

传统的两种衰减：

He et al. [9] decreases rate at 0.1 for every 30 epochs, we call it “step decay”. Szegedy et al. [26]
decreases rate at 0.94 for every two epochs

Loshchilov 等人 [18] 提出余弦退火策略，其简化版本是按照余弦函数将学习速率从初始值降低到 0。假设批次总数为 T（忽略预热阶段），然后在批次 t，学习率η_t 计算如下：

技术图片

5.2 标签平滑（带代码）

补充：在这里学习到论文里说到的两个迭代之间相差0.94倍。

标签平滑的想法首先被提出用于训练 Inception-v2 [26]。它将真实概率的构造改成：

技术图片

其中ε是一个小常数，K 是标签总数量。

技术图片

图 4：ImageNet 上标签平滑效果的可视化。顶部：当增加ε时，目标类别与其它类别之间的理论差距减小。下图：最大预测与其它类别平均值之间差距的经验分布。很明显，通过标签平滑，分布中心处于理论值并具有较少的极端值。

# -*- coding: utf-8 -*-
"""
qi=1-smoothing(if i=y)
qi=smoothing / (self.size - 1) (otherwise)#所以默认可以fill这个数，只在i=y的地方执行1-smoothing
另外KLDivLoss和crossentroy的不同是前者有一个常数
predict = torch.FloatTensor([[0, 0.2, 0.7, 0.1, 0],
[0, 0.9, 0.2, 0.1, 0],
[1, 0.2, 0.7, 0.1, 0]])
对应的label为
tensor([[ 0.0250, 0.0250, 0.9000, 0.0250, 0.0250],
[ 0.9000, 0.0250, 0.0250, 0.0250, 0.0250],
[ 0.0250, 0.0250, 0.0250, 0.9000, 0.0250]])
区别于one-hot的
tensor([[ 0., 0., 1., 0., 0.],
[ 1., 0., 0., 0., 0.],
[ 0., 1., 0., 0., 0.]])
"""
import torch
import torch.nn as nn
from torch.autograd import Variable
import matplotlib.pyplot as plt
import numpy as np
class LabelSmoothing(nn.Module):
"Implement label smoothing. size表示类别总数 "
def __init__(self, size, smoothing=0.0):
super(LabelSmoothing, self).__init__()
self.criterion = nn.KLDivLoss(size_average=False)
#self.padding_idx = padding_idx
self.confidence = 1.0 - smoothing#if i=y的公式
self.smoothing = smoothing
self.size = size
self.true_dist = None
def forward(self, x, target):
"""
x表示输入 (N，M)N个样本，M表示总类数，每一个类的概率log P
target表示label（M，）
"""
assert x.size(1) == self.size
true_dist = x.data.clone()#先深复制过来
#print true_dist
true_dist.fill_(self.smoothing / (self.size - 1))#otherwise的公式
#print true_dist
#变成one-hot编码，1表示按列填充，
#target.data.unsqueeze(1)表示索引,confidence表示填充的数字
true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence)
self.true_dist = true_dist
return self.criterion(x, Variable(true_dist, requires_grad=False))
if __name__=="__main__":
# Example of label smoothing.
crit = LabelSmoothing(size=5,smoothing= 0.1)
#predict.shape 3 5
predict = torch.FloatTensor([[0, 0.2, 0.7, 0.1, 0],
[0, 0.9, 0.2, 0.1, 0],
[1, 0.2, 0.7, 0.1, 0]])
v = crit(Variable(predict.log()),
Variable(torch.LongTensor([2, 1, 0])))
# Show the target distributions expected by the system.
plt.imshow(crit.true_dist)

调用的时候注意

module的init函数里面，fc后面要加上LogSoftmax函数，因为KLV要求输入log概率
self.Logsoftmax=nn.LogSoftmax()
forward函数里
x = self.fc(x)
x=self.Logsoftmax(x)

5.3 知识蒸馏（模型压缩中的）

在知识蒸馏 [10] 中，我们使用教师模型来帮助训练当前模型（被称为学生模型）。教师模型通常是具有更高准确率的预训练模型，因此通过模仿，学生模型能够在保持模型复杂性相同的同时提高其自身的准确率。一个例子是使用 ResNet-152 作为教师模型来帮助训练 ResNet-50。

5.4 混合训练

在混合训练（mixup）中，每次我们随机抽样两个样本 (x_i,y_i) 和 (x_j,y_j)。然后我们通过这两个样本的加权线性插值构建一个新的样本，训练只在新样本中训练：

技术图片

其中 λ∈[0,1] 是从 Beta(α, α) 分布提取的随机数。在混合训练中，我们只使用新的样本 (x hat, y hat)。

5.5 实验结果

技术图片

表 6：通过堆叠训练改进方法，得到的 ImageNet 验证准确率。基线模型为第 3 节所描述的。

作者之后又在另外一个数据集上试了下，证明可以。

6 迁移学习

自 2012 年 AlexNet 大展神威以来，研究者已经提出了各种卷积架构，包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等，我们会发现模型的准确率正稳定提升。

但是现在这些提升并不仅仅来源于架构的修正，还来源于训练过程的改进：包括损失函数的优化、数据预处理方法的提炼和最优化方法的提升等。在过去几年中，卷积网络与图像分割出现大量的改进，但大多数在文献中只作为实现细节而简要提及，而其它还有一些技巧甚至只能在源代码中找到。

在这篇论文中，李沐等研究者研究了一系列训练过程和模型架构的改进方法。这些方法都能提升模型的准确率，且几乎不增加任何计算复杂度。它们大多数都是次要的「技巧」，例如修正卷积步幅大小或调整学习率策略等。总的来说，采用这些技巧会产生很大的不同。因此研究者希望在多个神经网络架构和数据集上评估它们，并研究它们对最终模型准确率的影响。

研究者的实验表明，一些技巧可以显著提升准确率，且将它们组合在一起能进一步提升模型的准确率。研究者还对比了基线 ResNet 、加了各种技巧的 ResNet、以及其它相关的神经网络，下表 1 展示了所有的准确率对比。这些技巧将 ResNet50 的 Top-1 验证准确率从 75.3％提高到 79.29％，还优于其他更新和改进的网络架构。此外，研究者还表示这些技巧很多都可以迁移到其它领域和数据集，例如目标检测和语义分割等。

以上是关于训练技巧详解含有部分代码Bag of Tricks for Image Classification with Convolutional Neural Networks的主要内容，如果未能解决你的问题，请参考以下文章

文本分类Bag of Tricks for Efficient Text Classification

目标检测tricks:Bag of Freebies for Training Object Detection Neural Networks

Bag of Tricks for Image Classification with Convolutional Neural Networks

论文阅读：《Bag of Tricks for Efficient Text Classification》

Bag of Tricks for Image Classification

RandomForest的out of bag estimate 及Feature selection 具体作法