论文笔记:Asymmetric Temperature Scaling Makes Larger Networks Teach Well Again

Posted UQI-LIUWJ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记:Asymmetric Temperature Scaling Makes Larger Networks Teach Well Again相关的知识,希望对你有一定的参考价值。

Neurips 2022

研究内容是:为什么大神经网络不一定教地好,有没有什么简单的办法让大神经网络教地好?

1 知识蒸馏

1.1 原理

  • 将大(强)模型的能力传递给小(弱)模型

1.2 基本步骤

  • 在训练集上训练一个大教师网络,或者拿现有模型的当作教师网络
  • 使用1.1所述的损失去指导学生网络进行训练。
    • 损失包括两部分:
      • 正常分类损失
        • hard-label
      • 知识蒸馏损失
        • soft-label
        • 引入的目的是因为学生直接学习 hard-label 太困难了,因此期望学生能够模仿教师的 soft 输出,从而把握类别之间的相似度,从而更好地学习。

1.3 知识蒸馏中Temperature的影响

  • temperature是KD Loss(知识蒸馏损失)中的τ

2 大神经网络网络作为知识蒸馏的教师网络,效果不一定好

  •  随着 teacher size 逐渐变大,教师的准确率越来越高,但是其教的学生的准确率先变高再变低

2.1 大教师神经网络和小教师神经网络的不同

  • 在遍历所有可能温度系数的情况下,相比较于大教师网络,小教师网络更容易给出质量更好的指导信息(

2.2 大教师神经网络更易给出置信度高的预测

  • 大教师神经网络给出置信度更高的预测,包括两个方面
    • 正确类别的logit更大
    • 错误类别的logits之间差距小

    • 论文在 CIFAR-100 和 CIFAR-10 上训练 ResNet14/44/110 和 WRN28-1/4/8
    • fy表示正确类别的logit
    • σ(g)表示错误类别logits之间的方差
      • 在 CIFAR-100 上,ResNet110 很明显给出了更大的fy
      • 在 CIFAR-10 上 WideResNet28-8 给出了更小的σ(g)
    • 大神经网络更为置信
      • ——>target logit更大
        • 那么无论用什么温度系数τ对教师的输出进行 softmax,最后得到的都为 one-hot 形式;
      • ——>(或者)错误的logits之间差距更小
        • 假设都一样,那么无论用什么温度系数τ对教师的输出进行 softmax,最后得到的在错误类别之间都无法提供差异化信息。

3 知识蒸馏分解

  • 通过上一小节可以知道
    • 大教师网络的高置信度导致:无论在什么样子的温度系数τ下,其给出的指导信息()都很难具有足够有效的信息

3.1 符号说明

SF表示softmax 


  • 作者理论分析了以下结论
    • (1)随着τ的不断增大,得到的 p的熵越来越大,即越来越均匀。
      • 也即,随着τ的不断增大,得到的p各元素之间的方差越来越小
    • (2)在正确类别的logit是最大的的情况下,随着τ的不断增大,错误类别的平均概率e(q)会逐渐增大
    • (3)
      • Inherent Variance:错误类别 logits 经过 softmax 之后得到的类别概率分布的方差
      • Derived Average:所有类别 logits 经过 softmax 之后得到的错误类别概率的平均值
      • Derived Variance:所有类别 logits 经过 softmax 之后得到的错误类别概率的方差

 3.2 知识蒸馏分解

  • Correct Guidance,类似于 hard-label 的 one-hot 标签 
  • Smooth Regularization,错误类别的平均概率值,类似于 label smoothing
  • Class Discriminability,错误类别之间的差异,可以用方差来度量,错误类别差异越大,教师提供的指导信息越多!

3.3 不对称的temperature 缩放策略

  •  τ1>τ2>0
    • τ1大——>e(q)大(2)——>DA大(3)
    • τ2小——>p各元素之间的方差越来越大(1)——>IV大(3)
    • ——>DV大(3)
    • ——>错误类别的概率“错落有致”

参考内容:NeurIPS 2022 | 知识蒸馏中如何让“大教师网络”也教得好? (qq.com)

以上是关于论文笔记:Asymmetric Temperature Scaling Makes Larger Networks Teach Well Again的主要内容,如果未能解决你的问题,请参考以下文章

深度学习面试题27:非对称卷积(Asymmetric Convolutions)

第18期:对称加密和非对称加密 | Symmetric and Asymmetric Encryption

CVPR 2020 论文阅读笔记(三维点云/三维重建)

论文阅读笔记

论文笔记-Deep Learning on Graphs: A Survey(上)

ILSVRC历届冠军论文笔记