第31篇探索普通视觉Transformer Backbones用于物体检测

Posted 2022-04-09 AI浩

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第31篇探索普通视觉Transformer Backbones用于物体检测相关的知识，希望对你有一定的参考价值。

摘要

我们探索了普通的、非分层的视觉转换器（ViT）作为目标检测的骨干网络。这种设计使原始 ViT 架构能够针对对象检测进行微调，而无需重新设计用于预训练的分层主干。通过对微调的最小调整，我们的普通骨干检测器可以获得具有竞争力的结果。令人惊讶的是，我们观察到：（i）从单尺度特征图（没有常见的 FPN 设计）构建一个简单的特征金字塔就足够了；（ii）使用窗口注意力（没有移位）就足够了跨窗口传播块。通过将普通 ViT 主干预训练为 Masked Autoencoders (MAE)，我们的检测器 ViTDet 可以与之前所有基于分层主干的领先方法竞争，仅使用 ImageNet-1K pre 在 COCO 数据集上达到 61.3 APbox -训练。我们希望我们的研究能够引起人们对普通骨干检测器研究的关注。代码即将公开。

1、简介

现代目标检测器通常由一个与检测任务无关的主干特征提取器和一组包含特定检测先验知识的颈部和头部组成。颈部/头部中的常见组件可能包括感兴趣区域 (RoI) 操作、区域建议网络 (RPN) 或锚点、特征金字塔网络 (FPN) 等。如果特定任务的颈部/头部的设计是解耦的从主干的设计来看，它们可能会并行发展。根据经验，目标检测研究受益于对通用主干和检测特定模块的很大程度上独立探索。长期以来，由于卷积网络 (ConvNet) 的实际设计，这些主干一直是多尺度、分层架构，这严重影响了用于检测多尺度对象的颈部/头部设计（例如 FPN）。

在过去的一年中，Vision Transformers (ViT) 已成为视觉识别的强大支柱。与典型的 ConvNet 不同，原始的 ViT 是一个普通的、非分层的架构，它始终保持单尺度特征图。它的“极简主义”追求在应用于对象检测时遇到了挑战——例如，我们如何通过上游预训练的简单主干处理下游任务中的多尺度对象？普通的 ViT 是否太低效而无法用于高分辨率检测图像？放弃这种追求的一种解决方案是将分层设计重新引入主干。该解决方案，例如 Swin Transformers 和相关作品，可以继承基于 ConvNet 的检测器设计并显示出成功的结果。

在这项工作中，我们追求不同的方向：我们探索仅使用普通、非分层主干的目标检测器。如果这个方向成功，它将能够使用原始的 ViT 主干进行对象检测；这将使预训练设计与微调需求脱钩，保持上游与下游任务的独立性，就像基于 ConvNet 的研究一样。这个方向也部分遵循了 ViT 在追求通用特征时“减少归纳偏差”的哲学。由于非局部自注意力计算可以学习平移等变特征，它们还可以从某些形式的监督或自监督预训练中学习尺度等变特征。

在我们的研究中，我们的目标不是开发新组件。相反，我们进行了足以克服上述挑战的最小调整。特别是，我们的检测器仅从普通 ViT 主干的最后一个特征图构建一个简单的特征金字塔（图 1）。这放弃了 FPN 设计并放弃了分层主干的要求。为了有效地从高分辨率图像中提取特征，我们的检测器使用简单的非重叠窗口注意力（没有“移位”，不像）。少数可能是全局注意力或卷积的跨窗口块（例如，4 个）用于传播信息。这些调整仅在微调期间进行，不会改变预训练。

事实证明，我们简单的设计取得了令人惊讶的结果。我们发现，在普通 ViT 主干的情况下，FPN 设计不是必需的，并且可以通过从大步幅 (16) 单比例地图构建的简单金字塔有效地获得它的好处。我们还发现，只要信息在少量层的窗口中很好地传播，窗口注意力就足够了。

更令人惊讶的是，在某些情况下，我们名为 ViTDet 的普通骨干检测器可以与领先的分层骨干检测器（例如 Swin 、 MViT ）竞争。通过 Masked Autoencoder (MAE) [23] 预训练，我们的普通骨干检测器可以优于在 ImageNet-1K/21K [11] 上进行监督预训练的分层检测器（图 3）。对于较大的模型，收益更为突出尺寸。我们的检测器的竞争力是在不同的目标检测器框架下观察到的，包括 Mask R-CNN、Cascade Mask R-CNN [4] 及其增强功能。我们在 COCO 数据集 [37] 上报告了 61.3 APbox，具有普通的 ViT-Huge 主干，仅使用没有标签的 ImageNet-1K 预训练。我们还在长尾 LVIS 检测数据集上展示了具有竞争力的结果。虽然这些强有力的结果可能部分归因于 MAE 预训练的有效性，但我们的研究表明，普通骨干检测器可能是有前途的，它挑战了用于对象检测的分层骨干的根深蒂固的位置。

除了这些结果之外，我们的方法还保留了将特定于检测器的设计与与任务无关的主干分离的理念。这种理念与重新设计 Transformer 主干以支持多尺度层次结构的趋势形成鲜明对比。在我们的案例中，检测特定的先验知识仅在微调期间引入，无需在预训练中先验地调整主干设计。这使得我们的检测器与沿各个方向的 ViT 开发兼容，这些方向不一定受层次约束的限制，例如块设计、自我监督学习和缩放。我们希望我们的研究能够启发未来对普通骨干目标检测的研究。

2、相关工作

**对象检测器主干。 **在 R-CNN [20] 的工作的开创下，目标检测和许多其他视觉任务采用了预训练 + 微调范式：通用的、与任务无关的主干通过监督或自我监督训练进行预训练，其结构随后被修改并适应下游任务。计算机视觉中的主要主干是各种形式的 ConvNets 。

早期的神经网络检测器在最初呈现时基于单尺度特征图。虽然它们使用默认分层的 ConvNet 主干，但原则上它们适用于任何普通主干。 SSD 是首批利用 ConvNet 骨干网的分层特性（例如，VGG 网络的最后两个阶段）的作品之一。 FPN 通过使用分层主干的所有阶段，通过横向和自上而下的连接来进一步推动这个方向。 FPN 设计广泛用于目标检测方法。

ViT 是用于图像分类的标准 ConvNets 的强大替代方案。最初的 ViT 是一个简单的、非分层的架构。已经提出了各种分层 Transformer，例如 Swin、MViT、PVT和 PiT。这些方法继承了 ConvNets 的一些设计，包括层次结构和平移等变先验（例如，卷积、池化、滑动窗口）。因此，用这些主干替换 ConvNet 来进行目标检测相对简单。

普通骨干检测器。 ViT 的成功激发了人们推动目标检测的普通骨干的前沿。最近，UViT 被呈现为用于对象检测的单尺度 Transformer。 UViT 在目标检测指标下研究普通 ViT 主干的网络宽度、深度和输入分辨率。提出了一种渐进式窗口注意策略来解决高分辨率输入问题。与在预训练期间修改架构的 UViT 不同，我们的研究侧重于没有先验规范的原始 ViT 架构进行检测。我们的研究保持了主干的任务不可知性，因此它可以支持广泛的可用 ViT 主干以及它们在未来的改进。我们的方法将主干设计与检测任务分离，这是追求普通主干的关键动机。

UViT 使用单尺度特征图作为探测器头，而我们的方法在单尺度主干上构建了一个简单的金字塔。在我们研究的背景下，整个检测器必须是单尺度的，这是不必要的限制。请注意，完整的 UViT 检测器也有多种形式的多尺度先验（例如，RPN 和 RoIAlign），因为它基于 Cascade Mask R-CNN [4]。在我们的研究中，我们专注于利用预训练的普通骨干，我们不限制探测器颈部/头部的设计。

对象检测方法。对象检测是一个蓬勃发展的研究领域，它采用了具有不同属性的方法——例如，两阶段与单阶段、基于锚点与无锚点、基于区域与基于查询（DETR）。对不同方法的研究不断推进对目标检测问题的理解。我们的研究表明，“普通与分层”主干的主题值得探索，并可能带来新的见解。

3、方法

我们的目标是消除对骨干网的分层约束，并启用对普通骨干网目标检测的探索。为此，我们的目标是进行最少的修改，以仅在微调期间使简单的主干适应目标检测任务。在这些适应之后，原则上可以应用任何检测器头，为此我们选择使用 Mask R-CNN及其扩展。我们的目标不是开发新组件；相反，我们专注于在我们的探索中可以得出哪些新见解。

简单的特征金字塔。 FPN 是构建用于目标检测的网络内金字塔的常见解决方案。如果主干是分层的，FPN 的动机是结合早期阶段的高分辨率特征和后期阶段的更强特征。这是在 FPN 中通过自上而下和横向连接实现的 [35]（图 1 左）。

如果主干是非分层的，那么 FPN 动机的基础就会丢失，因为主干中的所有特征图都具有相同的分辨率。在我们的场景中，我们仅使用主干中的最后一个特征图，它应该具有最强的特征。在这张地图上，我们并行应用一组卷积或反卷积来生成多尺度特征图。具体来说，使用尺度为 $\\frac116$ （步幅 = 16）的默认 ViT 特征图，我们使用步幅 $\\left\\2,1, \\frac12, \\frac14\\right\\$ ，其中小数步幅表示反卷积，产生多种尺度 $\\left\\\\frac132, \\frac116, \\frac18, \\frac14\\right\\$ 的特征。我们将其称为“简单特征金字塔”（图 1 右）。

从单个地图构建多尺度特征图的策略与 SSD 的策略有关。然而，我们的场景涉及从深度、低分辨率的特征图进行上采样，这与不同，它利用了较浅的特征图。在分层主干中，上采样通常由横向连接辅助；在普通的 ViT 主干中，我们凭经验发现这不是必需的（第 4 节），简单的反卷积就足够了。我们假设这是因为 ViT 可以依赖位置嵌入来编码位置，并且还因为高维 ViT 补丁嵌入不一定会丢弃信息。

我们将与同样建立在普通主干上的两个 FPN 变体进行比较（图 2）。在第一个变体中，主干被人为地分为多个阶段，以模仿分层主干的各个阶段，并应用横向和自上而下的连接（图 2（a））。第二个变体与第一个变体类似，但仅使用最后一个映射而不是划分的阶段（图 2 (b)）。我们表明这些 FPN 变体不是必需的（第 4 节）。

骨干适应。 目标检测器受益于高分辨率输入图像，但在整个主干中计算全局自注意力在内存中是令人望而却步的，而且速度很慢。在这项研究中，我们关注预训练的主干执行全局自我注意的场景，然后在微调期间适应更高分辨率的输入。这与最近使用骨干预训练直接修改注意力计算的方法形成对比（例如，[40,16]）。我们的场景使我们能够使用原始的 ViT 主干进行检测，而无需重新设计预训练架构。

我们探索使用带有几个跨窗口块的窗口注意力[52]。在微调期间，给定一个高分辨率特征图，我们将其划分为规则的非重叠窗口。在每个窗口内计算自注意力。这在原始 Transformer [52] 中被称为“受限”自注意力。

与 Swin 不同，我们不会跨层“移动”[40] 窗口。为了允许信息传播，我们使用了极少数（默认情况下，4 个）可以跨窗口的块。我们将预训练的主干平均分成 4 个块子集（例如，对于 24 块 ViT-L，每个子集中有 6 个）。我们在每个子集的最后一个块中应用传播策略。我们研究这两种策略：

(i) 全局传播。我们在每个子集的最后一个块中执行全局自我注意。由于全局块的数量很少，内存和计算成本是可行的。这类似于 [32] 中与 FPN 联合使用的混合窗口注意力。

(ii) 卷积传播。作为替代方案，我们在每个子集之后添加一个额外的卷积块。卷积块是一个残差块[26]，由一个或多个卷积和一个恒等快捷方式组成。该块中的最后一层被初始化为零，因此该块的初始状态是一个身份[21]。将块初始化为身份允许我们将其插入到预训练主干中的任何位置，而不会破坏主干的初始状态。

我们的骨干适应很简单，并且使检测微调与全局自注意力预训练兼容。如前所述，没有必要重新设计预训练架构。

讨论。 对象检测器包含可以与任务无关的组件，例如主干，以及其他特定于任务的组件，例如 RoI 头。这种模型分解使与任务无关的组件能够使用非检测数据（例如 ImageNet）进行预训练，这可能会提供一个优势，因为检测训练数据相对稀缺。

从这个角度来看，追求包含较少归纳偏差的主干变得合理，因为可以使用大规模数据和/或自我监督来有效地训练主干。相比之下，检测任务特定组件的可用数据相对较少，并且仍可能受益于额外的归纳偏差。虽然追求具有较少感应偏差的检测头是一个活跃的工作领域，但像 DETR 这样的领先方法难以训练并且仍然受益于特定于检测的先验知识。

在这些观察的推动下，我们的工作在检测器的主干方面遵循了原始普通 ViT 论文的精神。虽然 ViT 论文的讨论侧重于减少平移等变的归纳偏差，但在我们的案例中，它是关于在主干中的尺度等变上减少甚至没有归纳偏差。我们假设普通主干实现尺度等方差的方法是从数据中学习先验知识，类似于它如何在没有卷积的情况下学习平移等方差和局部性。

我们的目标是证明这种方法的可行性。因此，我们选择使用标准检测特定组件（即，Mask R-CNN 及其扩展）来实现我们的方法。在检测头中探索更少的感应偏差是未来工作的一个开放且有趣的方向。我们希望它可以从我们这里的工作中受益，并在此基础上再接再厉。

执行。 我们使用 vanilla ViT-B、ViT-L、ViT-H [13] 作为预训练主干。我们将块大小设置为 16，因此特征图比例为 1/16，即步幅 = 16。我们的检测器头遵循 Mask R-CNN [24] 或 Cascade Mask R-CNN [4]，其架构细节在附录。输入图像为 1024×1024，在训练期间通过大规模抖动 [18] 进行了增强。由于这种重度正则化，我们在 COCO 中微调了多达 100 个 epoch。我们使用 AdamW 优化器 [41] 并使用基线版本搜索最佳超参数。更多细节在附录中。

4、实验

4.1 消融研究与分析

我们在 COCO 数据集 [37] 上进行消融实验。我们在 train2017 split 上进行训练并在 val2017 split 上进行评估。我们报告了边界框对象检测（APbox）和实例分割（APmask）的结果。

默认情况下，我们使用第 3 节中描述的简单特征金字塔和全局传播。我们使用 4 个传播块，均匀地放置在主干中。我们使用在不带标签的 IN-1K 上预训练的 MAE [23] 初始化主干。我们消除这些默认值并讨论我们的主要观察结果如下。

一个简单的特征金字塔就足够了。 在表 1 中，我们比较了图 2 所示的特征金字塔构建策略。

我们研究了没有特征金字塔的基线：RPN 和 RoI 头都应用于主干的最终单尺度 ( $\\frac116$ ) 特征图。这种情况类似于 FPN 提出之前的原始 Faster R-CNN。所有特征金字塔变体（表 1 a-c）都明显优于此基线，将 AP 提高多达 3.4 个点。我们注意到，使用单尺度特征图并不意味着检测器是单尺度的：RPN 头部具有多尺度锚点，而 RoI 头部在多尺度区域上运行。即便如此，特征金字塔还是有益的。这一观察结果与 FPN 论文中关于分层主干的观察结果一致。

但是，不需要 FPN 设计，我们简单的特征金字塔足以让普通的 ViT 主干享受金字塔的好处。为了消除这种设计，我们模仿 FPN 架构（即自上而下和横向连接），如图 2（a，b）所示。表 1 (a, b) 表明，虽然两种 FPN 变体在没有金字塔的情况下都在基线上实现了强大的增益（正如在分层主干上使用原始 FPN 广泛观察到的那样），但它们并不比我们简单的特征金字塔好。最初的 FPN [35] 是通过将低分辨率、更强的特征图与更高分辨率、更弱的特征图结合起来的。当主干很平坦并且没有高分辨率地图时，这个基础就失去了，这可以解释为什么我们的简单金字塔就足够了。

我们的消融表明，金字塔特征图集，而不是自上而下/横向连接，是有效多尺度检测的关键。为了看到这一点，我们研究了一个更加激进的简单金字塔案例：我们通过反卷积仅生成最精细的尺度 (1 4) 特征图，然后从这个最好的地图中，我们通过跨步平均池化并行对其他尺度进行子采样。此设计中没有非共享的按比例参数。这个非常简单的金字塔几乎一样好：它有 54.5 AP (ViT-L)，比没有金字塔的基线高 3.3。这显示了金字塔特征图的重要性。对于这些特征金字塔的任何变体，锚点（在 RPN 中）和区域（在 RoI 头中）根据它们的尺度映射到金字塔中的相应级别，如 [35] 中所示。我们假设这种显式的尺度等变映射，而不是自上而下/横向连接，是特征金字塔可以极大地有益于多尺度目标检测的主要原因。

在一些传播块的帮助下，窗口注意力就足够了。 表 2 消除了我们的骨干适应方法。简而言之，在具有纯窗口注意力且没有跨窗口传播块（表 2，“无”）的基线之上，各种传播方式都可以显示出不错的收益。

在表 2a 中，我们比较了我们的全局和卷积传播策略与无传播基线。它们比基线有 1.7 和 1.9 的增益。我们还与“移位窗口”（Swin [40]）策略进行了比较，其中窗口网格每隔一个块移动半个窗口大小。移位窗口变体比基线有 1.1 的增益，但比我们的差。请注意，这里我们只关注 Swin [40] 的“移位窗口”方面：主干仍然是一个普通的 ViT，仅在微调期间适应移位窗口注意力；它不是 Swin 架构，我们将在后面进行比较。

表 2b 比较了用于卷积传播的不同类型的残差块。我们研究了基本的（两个 3×3）、瓶颈（1×1→3×3→1×1），以及一个具有一个 3×3 卷积的原始块。它们都比基线有所改进，而特定的块设计仅产生微小的差异。有趣的是，即使卷积是一种局部操作，如果它的感受野覆盖了两个相邻的窗口，原则上连接两个窗口的所有像素就足够了。这种连接性要归功于后续块中两个窗口中的自我关注。这可以解释为什么它可以像全局传播一样执行。

在表 2c 中，我们研究了跨窗口传播应该位于主干的哪个位置。默认情况下，平均放置 4 个全局传播块。我们将它们放在第一个或最后 4 个块中进行比较。有趣的是，在最后 4 个块中执行传播几乎与均匀放置一样好。这与 [13] 中的观察结果一致，即 ViT 在后面的块中具有更长的注意力距离，并且在早期的块中更加本地化。相反，仅在前 4 个块中执行传播没有显示增益：在这种情况下，在这 4 个块之后没有跨主干窗口的传播。这再次表明跨窗口传播是有帮助的。

表 2d 比较了要使用的全局传播块的数量。即使只使用 2 个块也能达到很好的准确性，并且明显优于基线。为了全面起见，我们还报告了一个变体，其中 ViT-L 中的所有 24 个块都使用全局注意力。这比我们的 4 块默认值有 0.5 个点的边际增益，而它的训练需要特殊的内存优化（我们使用内存检查点 [7]）。这一要求使得扩展到更大的模型（如 ViT-H）变得不切实际。我们的窗口注意力解决方案加上一些传播块提供了一个实用的、高性能的折衷方案。

我们在表 3 中对这种权衡进行了基准测试。使用 4 个传播块可以进行很好的权衡。卷积传播是最实用的，它只增加了 ≤5% 的内存和时间，而代价是增加了 4% 的参数。使用 4 个块进行全局传播也是可行的，并且不会增加模型大小。所有 24 个区块的全局自注意力是不切实际的。

总之，表 2 表明各种形式的传播是有帮助的，而我们可以在大多数或所有块中继续使用窗口注意力。重要的是，所有这些架构调整仅在微调期间执行；他们不需要重新设计预训练架构。

Masked Autoencoders 提供了强大的预训练主干。 表 4 比较骨干预训练策略。 IN-1K 上的监督预训练比没有预训练稍差，类似于 [18] 中的观察结果。对于 ViT-L，IN-21K 的监督预训练略好一些。

相比之下，在 IN-1K（无标签）上的 MAE [23] 预训练显示出巨大的收益，ViT-B 的 APbox 增加了 3.1，ViT-L 的 APbox 增加了 4.6。我们假设，具有较少归纳偏差的 vanilla ViT [13] 可能需要更高的容量来学习翻译和缩放等变特征，而更高容量的模型容易出现严重的过度拟合。 MAE 预训练可以帮助缓解这个问题。接下来，我们将在上下文中讨论有关 MAE 的更多信息。

4.2 与分层骨干网的比较

现代检测系统涉及许多实现细节和微妙之处。为了专注于在尽可能公平的条件下比较骨干网，我们将 Swin [40] 和 MViTv2 [32] 骨干网合并到我们的实现中。

设置。我们对所有 ViT、Swin 和 MViTv2 主干使用相同的 Mask R-CNN 和 Cascade Mask R-CNN [4] 实现。我们将 FPN 用于 Swin/MViTv2 的分层主干。我们分别为每个主干搜索最佳超参数（见附录）。我们的 Swin 结果比原始论文中的同行要好；我们的 MViTv2 结果优于或与 [32]中报告的结果相当。

在原始论文 [40,32] 之后，Swin 和 MViTv2 都使用相对位置偏差 [44]。为了更公平的比较，这里我们还根据 [32] 在 ViT 主干中采用相对位置偏差，但仅在微调期间，不影响预训练。这种添加将 AP 提高了 ~1 个点。请注意，我们在 4.1 节中的消融没有相对位置偏差。

结果和分析。表 5 显示了比较。图 3 绘制了权衡。这里的比较涉及两个因素：主干和预训练策略。我们的普通骨干检测器与 MAE 预训练相结合，呈现出更好的缩放行为。当模型很大时，我们的方法优于 Swin/MViTv2 的分层模型，包括使用 IN-21K 监督预训练的模型。我们使用 ViT-H 的结果比使用 MViTv2-H 的结果好 2.6。此外，普通 ViT 具有更好的挂钟性能（图 3 右，参见 ViT-H 与 MViTv2-H），因为更简单的块更多硬件友好。

我们还注意到，分层主干通常涉及增强的自注意力块设计。示例包括 Swin [40] 中的移位窗口注意力和 MViT v1/v2 [16,32] 中的集中注意力。如果将这些块设计应用于普通骨干网，还可以提高准确性和参数效率。虽然这可能会使我们的竞争对手处于优势地位，但如果没有这些增强功能，我们的方法仍然具有竞争力。

4.3 与以前系统的比较

接下来，我们提供与之前论文中报告的领先结果的系统级比较。我们将我们的系统称为 ViTDet，即 ViT Detector，旨在使用 ViT 主干进行检测。由于这些比较是系统级的，因此这些方法使用了各种不同的技术。虽然我们努力平衡比较（如下所述），但一般来说，进行完全可控的比较是不可行的；相反，我们的目标是将我们的方法置于当前领先方法的背景下。

COCO上的比较。 表 6 报告了 COCO 的系统级比较。为了更公平的比较，我们在竞争对手的基础上进行了两项更改：我们采用了该表中所有竞争对手 [40,32,34,39] 使用的 soft-nms [3]，并增加了输入大小（从 1024 到 1280 ) 在 [34,39] 之后。我们注意到我们没有在以前的消融中使用这些改进。与上一小节（第 4.3 节）一样，我们在这里使用相对位置偏差。

迄今为止，领先的系统都基于分层主干（表 6）。我们首次展示了普通主干检测器可以在 COCO 上获得高度准确的结果，并且可以与领先的系统竞争。

我们还与最近的普通骨干检测方法 UViT [8] 进行了比较。正如第 2 节中所讨论的，UViT 和我们的工作有不同的侧重点。 UViT 旨在设计一个有利于检测的新的普通骨干网，而我们的目标是支持通用的 ViT 骨干网，包括 [13] 中的原始骨干网。尽管关注点不同，UViT 和我们的工作都表明，plainbackbone 检测是一个很有前途的方向，潜力巨大。

LVIS 上的比较。 我们进一步报告了 LVIS 数据集 [22] 上的系统级比较。 LVIS 包含 200 万个高质量实例分割注释，用于 1203 个类别，表现出自然的长尾对象分布。与 COCO 不同，类分布严重不平衡，许多类的训练示例很少（例如，<10）。

我们遵循与 COCO 系统级比较相同的模型和训练细节以及两个常见的 LVIS 实践：我们使用来自 [57] 的联合损失和具有重复因子采样的样本图像 [22]。我们在 v1 训练拆分上微调了 100 个 epoch。

表 7 显示了 v1 val 拆分的结果。我们的普通骨干检测器实现了与之前所有使用分层骨干的领先结果相比具有竞争力的性能。我们的比 2021 年比赛获胜者的“强基线”[17]（48.1 vs. 43.1 APmask）高 5.0 分，后者使用 HTC 和结合了两个 Swin-L 主干的 CBNetV2 [34]。 LVIS 的一个特殊问题是关于长尾分布，这超出了我们的研究范围。专门针对这个问题的技术，例如，使用 CLIP [42] 文本嵌入或 [17] 中的其他改进，可以在很大程度上增加稀有类的 AP（APmask 稀有），从而提高整体 AP。这些与我们的方法正交，可以互补。尽管如此，我们在 LVIS 上的结果再次表明，plainbackbone 检测器可以与分层检测器竞争。

5 结论

我们的探索表明，plain-backbone 检测是一个很有前途的研究方向。这种方法在很大程度上保持了通用主干和下游特定任务设计的独立性——这在基于 ConvNet 的研究中是这种情况，但在基于 Transformer 的研究中却不是。我们希望将预训练与微调分离是一种普遍有益于社区的方法。例如，在自然语言处理 (NLP) 中，通用预训练 (GPT [43]、BERT [12]) 极大地推动了该领域的发展，并一直支持各种下游任务。在这项研究中，我们的普通骨干检测器受益于 MAE [23] 中现成的预训练模型。我们希望这种方法也有助于拉近计算机视觉和 NLP 领域的距离。

以上是关于第31篇探索普通视觉Transformer Backbones用于物体检测的主要内容，如果未能解决你的问题，请参考以下文章

第16篇Swin Transformer

第30篇Vision Transformer

第59篇MetaFormer实际上是你所需要的视觉

第58篇DEiT：通过注意力训练数据高效的图像transformer &蒸馏