Correlation Congruence for Knowledge Distillation

Posted 爆米花好美啊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Correlation Congruence for Knowledge Distillation相关的知识,希望对你有一定的参考价值。

Motivation

目前大多数KD框架的pipeline

  • 一张图片送入teacher和student得到各自的feature和output
  • 然后定义loss,拉进feature或者output的距离
    但是他们都是直接在一个整图级别上做的,student很难学习到teacher的那种处理类内和类间的能力

如下图:白色空心圈是期望学习到的效果

左边是期望类间可以拉开,右边是期望类内可以聚拢

Method

首先得到teacher和student的特征图

然后定义mapping函数计算特征之间的相关性矩阵correlation matrix,注意teacher和student是各自分开计算,而不是互相计算相关性


C就变成了一个nxn的矩阵

Lcc即计算相关性矩阵的L2 距离

Correlation matrix的计算


对比于MMD和Bilinear Pool,Gaussian RBF更加灵活和具有非线性能力,因此本文选择Gaussian RBF

Experiments

以上是关于Correlation Congruence for Knowledge Distillation的主要内容,如果未能解决你的问题,请参考以下文章

Codeforces 919 E Congruence Equation

[Codeforces 919E]Congruence Equation

[CF919E]Congruence Equation

cf 460 E. Congruence Equation 数学题

CodeforcesRound #460 E - Congruence Equation 中国剩余定理+数论

数学笔记:pearson correlation coefficient VS spearman correlation coefficient