机器学习笔记:ViT (论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale)

Posted UQI-LIUWJ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习笔记:ViT (论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale)相关的知识,希望对你有一定的参考价值。

ICLR 2021

0 前言

说到图像处理,一般想到的就是CNN/CNN的变体

机器学习笔记:CNN卷积神经网络_UQI-LIUWJ的博客-CSDN博客

 

 

。ViT的想法是利用Transformer机制来替换CNN机制,将Transformer运用到图像分类中。

 机器学习笔记:Transformer_UQI-LIUWJ的博客-CSDN博客

1 图像转成句子(图片 token化)

        将图像分割成小块(image patch),并将这些块转化为序列,作为Transformer的输入。

        图像块(image patches)相当于NLP任务中的单词(token)来做处理。以有监督的方式训练图像分类模型。

  • 比如一张原始图像,分辨率是H×W,通道数是C
  • 我们将其分割成P×P的patch组成的序列

2 整体流程

和Transformer的encoder流程差不多

 

 

以上是关于机器学习笔记:ViT (论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale)的主要内容,如果未能解决你的问题,请参考以下文章

从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程

论文笔记/机器学习笔记:CBAM

论文笔记/机器学习笔记:CBAM

论文/机器学习笔记:SENet (Squeeze-and-Excitation Networks)

论文/机器学习笔记:SENet (Squeeze-and-Excitation Networks)

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(阅读笔记)