微调(Fine-tune)原理

Posted 2021-03-24 xiaoyh

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了微调(Fine-tune)原理相关的知识，希望对你有一定的参考价值。

　　在自己的数据集上训练一个新的深度学习模型时，一般采取在预训练好的模型上进行微调的方法。什么是微调？这里已VGG16为例进行讲解，下面贴出VGGNet结构示意图。　　

　　　技术图片

　　上面圈出来的是VGG16示意图，也可以用如下两个图表示。

　　　技术图片

　　如上图所示，VGG16的结构为卷积+全连接层。卷积层分为5个部分共13层，即图中的conv1~conv5。还有3层是全连接层，即图中的fc6、fc7、fc8。卷积层加上全连接层合起来一共为16层，因此它被称为VGG16。如果要将VGG16的结构用于一个新的数据集，首先要去掉fc8这一层。原因是fc8层的输入是fc7的特征，输出是1000类的概率，这1000类正好对应了ImageNet模型中的1000个类别。在自己的数据中，类别数一般不是1000类，因此fc8层的结构在此时是不适用的，必须将fc8层去掉，重新采用符合数据集类别数的全连接层，作为新的fc8。比如数据集为5类，那么新的fc8的输出也应当是5类。

　　此外，在训练的时候，网络的参数的初始值并不是随机化生成的，而是采用VGG16在ImageNet上已经训练好的参数作为训练的初始值。这样做的原因在于，在ImageNet数据集上训练过的VGG16中的参数已经包含了大量有用的卷积过滤器，与其从零开始初始化VGG16的所有参数，不如使用已经训练好的参数当作训练的起点。这样做不仅可以节约大量训练时间，而且有助于分类器性能的提高。

　　载入VGG16的参数后，就可以开始训练了。此时需要指定训练层数的范围。一般来说，可以选择以下几种范围进行训练：

　　（1）：只训练fc8。训练范围一定要包含fc8这一层。因为fc8的结构被调整过，所有它的参数不能直接从ImageNet预训练模型中取得。可以只训练fc8，保持其他层的参数不动。这就相当于将VGG16当作一个“特征提取器”：用fc7层提取的特征做一个Softmax模型分类。这样做的好处是训练速度快，但往往性能不会太好。
　　（2）：训练所有参数。还可以对网络中的所有参数进行训练，这种方法的训练速度可能比较慢，但是能取得较高的性能，可以充分发挥深度模型的威力。
　　（3）：训练部分参数。通常是固定浅层参数不变，训练深层参数。如固定conv1、conv2部分的参数不训练，只训练conv3、conv4、conv5、fc6、fc7、fc8的参数

　　微调的原理大致意思就是先看懂网络的结构图，然后把网络的一部分修改成自己需要的模型。这种训练方法就是所谓的对神经网络模型做微调。借助微调，可以从预训练模型出发，将神经网络应用到自己的数据集上。

以上是关于微调(Fine-tune)原理的主要内容，如果未能解决你的问题，请参考以下文章