Correlation Congruence for Knowledge Distillation
Posted 爆米花好美啊
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Correlation Congruence for Knowledge Distillation相关的知识,希望对你有一定的参考价值。
Motivation
目前大多数KD框架的pipeline
- 一张图片送入teacher和student得到各自的feature和output
- 然后定义loss,拉进feature或者output的距离
但是他们都是直接在一个整图级别上做的,student很难学习到teacher的那种处理类内和类间的能力
如下图:白色空心圈是期望学习到的效果
左边是期望类间可以拉开,右边是期望类内可以聚拢
Method
首先得到teacher和student的特征图
然后定义mapping函数计算特征之间的相关性矩阵correlation matrix,注意teacher和student是各自分开计算,而不是互相计算相关性
C就变成了一个nxn的矩阵
Lcc即计算相关性矩阵的L2 距离
Correlation matrix的计算
对比于MMD和Bilinear Pool,Gaussian RBF更加灵活和具有非线性能力,因此本文选择Gaussian RBF
Experiments
以上是关于Correlation Congruence for Knowledge Distillation的主要内容,如果未能解决你的问题,请参考以下文章
Codeforces 919 E Congruence Equation
[Codeforces 919E]Congruence Equation
cf 460 E. Congruence Equation 数学题
CodeforcesRound #460 E - Congruence Equation 中国剩余定理+数论
数学笔记:pearson correlation coefficient VS spearman correlation coefficient