论文泛读知识蒸馏：Distilling the knowledge in a neural network

Posted 2022-05-31 风信子的猫Redamancy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文泛读知识蒸馏：Distilling the knowledge in a neural network相关的知识，希望对你有一定的参考价值。

【论文泛读】知识蒸馏：Distilling the knowledge in a neural network

文章目录

【论文泛读】知识蒸馏：Distilling the knowledge in a neural network

2022.5.26-2022.5.29

论文链接：Distilling the knowledge in a neural network

知识蒸馏（Knowledge Distillation）是一种模型压缩方法，由深度学习三巨头Hinton老爷子在2015年提出。深度学习在计算机视觉、语音识别、自然语言处理等内的众多领域中均取得了令人难以置信的性能。但是，大多数模型在计算上过于昂贵，无法在移动端或嵌入式设备上运行。因此需要对模型进行压缩，且知识蒸馏是模型压缩中重要的技术之一。现如今，知识蒸馏被广泛的用于模型压缩和迁移学习当中，这篇就是知识蒸馏的开山之作，今天我也一起读一下这篇论文，学习学习。

文章的标题是Distilling the Knowledge in a Neural Network，那么说明是神经网络的知识呢？一般认为模型的参数保留了模型学到的知识，因此最常见的迁移学习的方式就是在一个大的数据集上先做预训练，然后使用预训练得到的参数在一个小的数据集上做微调（两个数据集往往领域不同或者任务不同）。例如先在Imagenet上做预训练，然后在COCO数据集上做检测。在这篇论文中，作者认为可以将模型看成是黑盒子，知识可以看成是输入到输出的映射关系。因此，我们可以先训练好一个teacher网络，然后将teacher的网络的输出结果 $q$ 作为student网络的目标，训练student网络，使得student网络的结果 $p$ 接近 $q$ ，这就是论文的基本思想。

首先可以思考一个问题，知识蒸馏和从头训练一个网络有什么不同

这样和从头训练一个模型有什么不一样？

显然，模型越复杂，理论搜索空间越大。但是，如果我们假设较小的网络也能实现相同(甚至相似)的收敛，那么教师网络的收敛空间应该与学生网络的解空间重叠。

不幸的是，仅凭这一点并不能保证学生网络收敛在同一点。学生网络的收敛点可能与教师网络有很大的不同。但是，如果引导学生网络复制教师网络的行为(教师网络已经在更大的解空间中进行了搜索)，则其预期收敛空间会与原有的教师网络收敛空间重叠。

摘要 Abstract

要提高几乎所有机器学习算法的性能，一个非常简单的方法是在同一个数据上训练许多不同的模型并集成平均它们的预测效果。不幸的是，使用集成模型进行预测是很麻烦的，而且可能计算成本太高，不能部署到大量用户，特别是当单个模型是大型神经网络时。有研究表示，将集成模型中的知识压缩到易于部署的单个模型是有可能的，我们使用不同的压缩技术进一步发展了这种方法。
我们在MNIST上取得了一些令人惊喜的结果，并且我们表明，通过将集成模型的知识提炼到单个模型中可以显著改进大量应用于商业系统的语音模型。我们还引入了一种新型的由一个或多个完整模型和许多能够学习区分完整模型会混淆的细粒度类的“专家模型”。不同于“专家模型”的混合，这些“专家模型”可以快速地并行训练。

介绍 Introduction

许多昆虫的幼年形态是最适合从环境中汲取能量和营养的，而成虫形态则完全不同，更适合旅行和繁殖等不同需求。昆虫的类比表明我们可以训练非常复杂的模型，其易于从数据中提取出结构。这个复杂的模型可以是独自训练模型的集成，也可以是一个用强大正则器如 $d r o p o u t$ 训练的单个大模型。一旦复杂模型训练完毕，之后我们可以使用一种不同的训练方式，称之为“蒸馏”，将知识从复杂的模型（称之为 $t e a c h e r$ 模型）转移到更易于部署的小模型（称之为 $s t u d e n t$ 模型）中。

对于 $t e a c h e r$ 模型，其能够学习区分大量的类别，正常情况下，训练目标是最大化正确类别的平均对数概率，但这种**学习的副作用是训练的模型会将概率分配给错误的类别上，虽然这些概率值可能很小，但一些错误类别比其他错误类别的概率值大很多。**比如：一辆宝马车的照片可能有很小的概率被误认为垃圾车，但是仍比被误认为一根萝卜的概率大出很多。在错误类别上的相对概率可以反映出模型是如何进行泛化的，这也是模型学到的知识，教师网络可能可以从相关性的概率告诉学生如何去泛化。

通常上来说，我们认为模型学习到的参数代表着“知识”，这是无法迁移的，如果将模型参数定义为“知识”是无法进行操作的。论文中提出可以利用 $t e a c h e r$ 模型的类别概率作为 “软目标” 用于训练 $s t u d e n t$ 模型，概率中含有许多隐式的信息。

**当 $s o f t$ $t a r g e t$ 具有高熵值，在训练每一个样本时软目标能够提供比 $h a r d$ $t r a g e t$ （ $s t u d e n t$ 模型的 $t r u t h g r o u n d t r u t h$ ）更多的信息并且训练每一个样本时的梯度差异更小。因此，与 $t e a c h e r$ 模型相比， $s t u d e n t$ 模型训练数据要少得多，使用的学习率也高得多。**这一部分其实也是比较容易思考的，比如我们的硬目标只有一个数据，比如（0,0,1）,我们只能从中学习正确的目标，但是不能得到其他的数据，但是对于我们的 $t e a c h e r$ 模型来说，他输出的是我们的软目标，里面包含着概率，比如（0.1,0.3,0.6)，这个熵明显更高，包含着更多的信息，也能获取更多的知识。

Hard-target：原始数据集标注的 one-shot 标签，除了正标签为 1，其他负标签都是 0。
Soft-target：Teacher模型softmax层输出的类别概率，每个类别都分配了概率，正标签的概率最高。

如在MNIST数据集中做手写体数字识别任务，假设某个输入的“2”更加形似"3"，softmax的输出值中"3"对应的概率会比其他负标签类别高；而另一个"2"更加形似"7"，则这个样本分配给"7"对应的概率会比其他负标签类别高。这两个"2"对应的Hard-target的值是相同的，但是它们的Soft-target却是不同的，由此我们可见Soft-target蕴含着比Hard-target更多的信息。

**这是非常有价值的信息，它在数据上定义了丰富的相似性结构（例如，它说明了哪个版本的2 看起来像3 ,哪个像7 ），但它对迁移阶段的交叉熵代价函数的影响很小，因为这些概率值接近零。**之前研究的作者，解决这个的方法是利用 $l o g i t s$ 对未经过 $s o f t m a x$ 函数的值，而不是经过 $s o f t m a x$ 函数之后的概率值，然后将 $t e a c h e r$ 的 $l o g i t s$ 值和 $s t u d e n t$ 的 $l o g i t s$ 值的平方差作为最小化目标。

在介绍知识蒸馏方法之前，首先得明白什么是Logits。我们知道，对于一般的分类问题，比如图片分类，输入一张图片后，经过DNN网络各种非线性变换，在网络最后Softmax层之前，会得到这张图片属于各个类别的大小数值 $z_i$ ，某个类别的 $z_i$ 数值越大，则模型认为输入图片属于这个类别的可能性就越大。什么是Logits? 这些汇总了网络内部各种信息后，得出的属于各个类别的汇总分值 $z_i$ ，就是Logits，i代表第i个类别， $z_i$ 代表属于第i类的可能性。因为Logits并非概率值，所以一般在Logits数值上会用Softmax函数进行变换，得出的概率值作为最终分类结果概率。Softmax一方面把Logits数值在各类别之间进行概率归一，使得各个类别归属数值满足概率分布；另外一方面，它会放大Logits数值之间的差异，使得Logits得分两极分化，Logits得分高的得到的概率值更偏大一些，而较低的Logits数值，得到的概率值则更小。

**论文中，我们提出了一个通用的解决方案，叫做“蒸馏”，是提高 $s o f t m a x$ 最终值的温度，直到 $t e a c h e r$ 模型产生一个合适的软目标集。**当训练 $s t u d e n t$ 模型来匹配这些软目标时，我们使用同样高的温度。稍后说明，之前研究中直接 $l o g i t s$ 实际上只是蒸馏的一种特殊情况。我们还可以用这种方法在未标记的数据集中训练小模型，也可以用原始的数据集，这样我们可以进行一个扩充数据集操作。我们可以从下图看的出来，我们可以从 $t e a c h e r$ 模型中得到软目标，然后对 $s t u d e n t$ 模型进行训练。

蒸馏 Distillation

神经网络通常使用 $s o f t m a x$ 输出层来生成类的概率，然后这一部分会对每一个 $logits\\ z_i$ 生成对应的概率 $q_i$
$q_i=\\frac\\exp \\left(z_i / T\\right)\\sum_j \\exp \\left(z_j / T\\right)$
其中 $T$ 表示温度，正常情况下设为 $1.0$ ，使用更高的 $T$ 可以生成更加平滑的类概率分布。

最简单的蒸馏形式是通过在迁移集训练上student模型将知识迁移到student模型中，在迁移集中得每个样本使用由将温度 $T$ 设置得很高的teacher 模型生成软目标分布。在训练student模型时使用相同的高温，但在训练结束后，其使用温度 $T = 1.0$ 。在训练 student模型时，我们使用两个不同目标函数的加权平均，形式如下:
$\\text cost function =\\text CroEntropy \\left(y_s, y_t\\right)+\\mid \\alpha \\operatornameCross \\operatornameEntropy\\left(y_s, y\\right)$
其中CrossEntropy $(*)$ 为交叉熵函数， $y_s$ 表示student模型的预测结果， $y_s$ 表示teacher模型的预测结果， $y$ 是student模型的真实标签。第一个交叉熵函数是student模型预测结果与软目标的交叉熵，其使用与训练该软目标的teacher中一样的温度。第二个目标函数是student模型与真实标签的交叉熵，其温度设置为 $1.0$ 。

我们发现最好的结果是在第二个目标函数上使用较低的权值（即： $\\alpha$ 取小值) 。由于软目标产生的梯度缩放了 $1 / T^2$ ，因而在同时使用软目标和硬目标时，将软目标的梯度乘以 $T^2$ 是非常重要的。这确保了在实验过程中，如果用于蒸馏的温度发生改变，那么硬目标和软目标的相对贡献大致保持不变。

总结一下

应用蒸馏技术的大致流程如下图所示：
将 $s t u d e n t$ 模型在训练软目标时，要在高温环境下进行，即 $T$ 取一个较大的值，同时与它做交叉熵的 $t e a c h e r$ 模型的输出
以上是关于论文泛读知识蒸馏：Distilling the knowledge in a neural network的主要内容，如果未能解决你的问题，请参考以下文章

论文泛读 知识蒸馏：Distilling the knowledge in a neural network

【论文泛读】 知识蒸馏：Distilling the knowledge in a neural network