（2020.6.20）MOCO

Posted 2020-12-11 sqlkrad

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了（2020.6.20）MOCO相关的知识，希望对你有一定的参考价值。

参考资料：1911.05722和2003.04297——Kaiming大神最近很火的两篇成果。

BERT在自然语言里如火如荼，图像领域也开始尝试大规模自监督预训练了。但是相比自然语言处理，图像是连续的值，Embedding不是简单的look up的过程，而是待训练的encoder。而训练自监督的时候，需要反例足够多，每次随机采样反例然后输入encoder不太现实，因此作者提出了用队列保存已经encode过的样本做反例，减少了重复计算。但是这样操作带来的问题是，encoder会随着训练变化，作者提出了用momentum的方法，一方面让队列里的embedding变化不要太剧烈（也就是论文里说的一致性问题），另一方面也会随着梯度下降慢慢学习（也就是论文里说的动态变化）。

但是这里可能有点反直觉，有两个encoder，一个训练，一个小幅度跟进，真的能train起来吗？论文用实验证明了，可以。

这种想法显然也可以用在语音上，估计过不了多久就会出来语音版的MOCO了。（也许是Hung-yi老师组？）

以上是关于（2020.6.20）MOCO的主要内容，如果未能解决你的问题，请参考以下文章