softmax求导/label_smoothing求导/知识蒸馏求导

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了softmax求导/label_smoothing求导/知识蒸馏求导相关的知识,希望对你有一定的参考价值。


文章目录

  • ​​softmax求导​​
  • ​​label_smoothing​​
  • ​​知识蒸馏​​

softmax求导

softmax求导/label_smoothing求导/知识蒸馏求导_git
链式求导
softmax求导/label_smoothing求导/知识蒸馏求导_矩阵求导_02
分别求解
softmax求导/label_smoothing求导/知识蒸馏求导_git_03

softmax求导/label_smoothing求导/知识蒸馏求导_矩阵求导_04

softmax求导/label_smoothing求导/知识蒸馏求导_矩阵求导_05

则有
softmax求导/label_smoothing求导/知识蒸馏求导_深度学习_06
关于矩阵形式的求导可以参考另一篇​​矩阵求导术​​

label_smoothing

softmax求导/label_smoothing求导/知识蒸馏求导_git
其中
softmax求导/label_smoothing求导/知识蒸馏求导_git_08
求导结果与上面softmax相同
softmax求导/label_smoothing求导/知识蒸馏求导_矩阵求导_09

知识蒸馏

有两个softmax求导/label_smoothing求导/知识蒸馏求导_矩阵求导_10分别对应教师网络和学生网络的输出
softmax求导/label_smoothing求导/知识蒸馏求导_机器学习_11
softmax求导/label_smoothing求导/知识蒸馏求导_深度学习_12
softmax求导/label_smoothing求导/知识蒸馏求导_深度学习_13
softmax求导/label_smoothing求导/知识蒸馏求导_softmax_14
softmax求导/label_smoothing求导/知识蒸馏求导_softmax_15
带入链式求导公式
softmax求导/label_smoothing求导/知识蒸馏求导_softmax_16
softmax求导/label_smoothing求导/知识蒸馏求导_git_17带入,并通过泰勒公式softmax求导/label_smoothing求导/知识蒸馏求导_矩阵求导_18
softmax求导/label_smoothing求导/知识蒸馏求导_git_19
假设logits的均值为0,即softmax求导/label_smoothing求导/知识蒸馏求导_softmax_20
softmax求导/label_smoothing求导/知识蒸馏求导_矩阵求导_21
所以,当导数等于0的时候,student网络生成的logit模仿的就是teacher网络的logit。


以上是关于softmax求导/label_smoothing求导/知识蒸馏求导的主要内容,如果未能解决你的问题,请参考以下文章

softmax交叉熵损失函数求导

机器学习基础对 softmax 和 cross-entropy 求导

转载softmax的log似然代价函数(求导过程)

机器学习Softmax及求导

机器学习—线性回归逻辑回归Softmax回归 的区别

softmax 函数多分类原理教程