第16篇Swin Transformer

Posted 2021-11-01 AI浩

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第16篇Swin Transformer相关的知识，希望对你有一定的参考价值。

摘要

本文介绍了一种称为 Swin Transformer 的新视觉 Transformer，它可以作为计算机视觉的通用主干。将 Transformer 从语言适应到视觉方面的挑战源于两个领域之间的差异，例如视觉实体的规模差异很大，以及与文本中的单词相比，图像中像素的高分辨率。为了解决这些差异，我们提出了一种分层 Transformer，其表示是用移位窗口计算的。移位窗口方案通过将自注意力计算限制到非重叠的本地窗口同时还允许跨窗口连接来提高效率。这种分层架构具有在各种尺度上建模的灵活性，并且相对于图像大小具有线性计算复杂性。 Swin Transformer 的这些品质使其与广泛的视觉任务兼容，包括图像分类（ImageNet-1K 上的 86.4 top-1 准确率）和密集预测任务，例如对象检测（COCO test 上的 58.7 box AP 和 51.1 mask AP） dev) 和语义分割（ADE20K val 上为 53.5 mIoU）。它的性能在 COCO 上以 +2.7 box AP 和 +2.6 mask AP 以及在 ADE20K 上 +3.2 mIoU 的大幅度超过了之前的最新技术，证明基于 Transformer 的模型作为视觉支柱的潜力。代码和模型将公布在 https://github.com/microsoft/Swin-Transformer 。

1、简介

计算机视觉建模长期以来一直由卷积神经网络 (CNN) 主导。从 AlexNet [38] 及其在 ImageNet 图像分类挑战中的革命性表现开始，CNN 架构通过更大的规模 [29, 73]、更广泛的连接 [33] 和更复杂的卷积形式 [67, 17, 81]。随着 CNN 作为各种视觉任务的骨干网络，这些架构的进步导致了性能改进，从而广泛提升了整个领域。

以上是关于第16篇Swin Transformer的主要内容，如果未能解决你的问题，请参考以下文章