第58篇DEiT：通过注意力训练数据高效的图像transformer &蒸馏

Posted 2022-12-28 AI浩

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第58篇DEiT：通过注意力训练数据高效的图像transformer &蒸馏相关的知识，希望对你有一定的参考价值。

摘要

最近，纯基于注意力的神经网络被证明可以解决图像理解任务，如图像分类。这些高性能的是使用大型基础设施预先训练数以亿计的图像，从而限制了它们的采用。

本文仅通过在Imagenet上训练，产生有竞争力的无卷积transformer。我们用一台电脑在不到3天的时间里训练它们。所提出的参考视觉transformer (86M参数)在没有外部数据的情况下，在ImageNet上实现了83.1%(单裁剪)的top-1精度。

更重要的是，引入了transformer特有的师生策略。它依赖于蒸馏令牌，确保学生通过注意力从老师那里学习。展示了这种基于令牌的蒸馏的兴趣，特别是在使用convnet作为老师时。这导致我们报告的结果在Imagenet(获得高达85.2%的精度)和转移到其他任务时都与convnets竞争。我们共享我们的代码和模型。

1 介绍

卷积神经网络一直是图像理解任务的主要设计范式，正如最初在图像分类任务中演示的那样。他们成功的一个因素是大型训练集的可用性，即Imagenet[13,42]。受自然语言处理中基于注意的模型的成功[14,52]的激励，人们对利用convnets中的注意机制的架构越来越感兴趣[2,34,61]。最近，一些研究人员提出了将transformers成分移植到convet的混合架构，以解决视觉任务[6,43]。

Dosovitskiy等人[15]介绍的vision transformer(ViT)是直接继承自然语言处理[52]的体系结构，但应用于以原始图像补丁为输入的图像分类。他们的论文展示了用大型私有标记图像集(JFT-300M[46]， 3亿张图像)训练的tra

以上是关于第58篇DEiT：通过注意力训练数据高效的图像transformer &蒸馏的主要内容，如果未能解决你的问题，请参考以下文章

DEiT实战：使用DEiT实现图像分类任务

知识蒸馏DEiT算法实战：使用RegNet蒸馏DEiT模型