预训练(pre-training/trained)与微调(fine-tuning)

Posted 2020-12-11 zhibei

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了预训练(pre-training/trained)与微调(fine-tuning)相关的知识，希望对你有一定的参考价值。

什么是预训练和微调？

预训练(pre-training/trained)：你需要搭建一个网络来完成一个特定的图像分类的任务。首先，你需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当你觉得结果很满意的时候，就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是pre-training。

之后，你又接收到一个类似的图像分类的任务。这个时候，你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数，然后在训练的过程中，依据结果不断进行一些修改。这时候，你使用的就是一个pre-trained模型，而过程就是fine-tuning。

所以，预训练就是指预先训练的一个模型或者指预先训练模型的过程；微调就是指将预训练过的模型作用于自己的数据集，并参数适应自己数据集的过程。

微调的作用

在CNN领域中。很少人自己从头训练一个CNN网络。主要原因上自己很小的概率会拥有足够大的数据集，从头训练，很容易造成过拟合。

所以，一般的操作都是在一个大型的数据集上训练一个模型，然后使用该模型作为类似任务的初始化或者特征提取器。比如VGG，Inception等模型都提供了自己的训练参数，以便人们可以拿来微调。这样既节省了时间和计算资源，又能很快的达到较好的效果。

参考：https://blog.csdn.net/abc13526222160/article/details/89320108?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

以上是关于预训练(pre-training/trained)与微调(fine-tuning)的主要内容，如果未能解决你的问题，请参考以下文章

《预训练周刊》第33期：预训练语言模型的高效分层域适应

BERT：深度双向预训练语言模型

最强 NLP 预训练模型库 PyTorch-Transformers 正式开源：支持 6 个预训练框架，27 个预训练模型

中文bert wwm 预训练参考笔记

XLM 预训练模型的使用

[从零开始学DeepFaceLab-18]: 使用-命令行八大操作步骤-第6步：模型的选择与训练 - 进阶 - 使用“预训练模型”与“模型的预训练”