ConvMAE：Masked Convolution 遇到 Masked Autoencoders

Posted 2022-05-28 AI浩

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ConvMAE：Masked Convolution 遇到 Masked Autoencoders相关的知识，希望对你有一定的参考价值。

摘要

论文地址：https://arxiv.org/pdf/2205.03892
视觉转换器 (ViT) 已成为各种视觉任务广泛采用的架构。用于特征预训练的掩码自动编码 [2、1、28、55] 和多尺度混合卷积变换器架构 [12、21、49、34、57] 可以进一步释放 ViT 的潜力，从而实现最先进的图像分类、检测和语义分割的艺术表演。在本文中，我们的 ConvMAE 框架证明了多尺度混合卷积变换器可以通过掩码自动编码方案学习更多的判别表示。然而，直接使用原始掩码策略会导致计算成本和预训练-微调差异。为了解决这个问题，我们采用掩码卷积来防止卷积块中的信息泄漏。提出了一种简单的分块屏蔽策略来确保计算效率。我们还建议更直接地监督编码器的多尺度特征以提升多尺度特征。与 MAE-Base 相比，ConvMAE-Base 将 ImageNet-1K 微调精度提高了 1.4%。在目标检测方面，仅微调 25 个 epoch 的 ConvMAEBase 比微调 100 个 epoch 的 MAE-Base 分别高出 2.9% APbox 和 2.2% APmask。代码和预训练模型可在 https://github.com/Alpha-VL/ConvMAE 获得。

1 简介

自监督学习框架，如 DINO [6]、MOCO-V3 [10]、MAE [28]，释放了视觉转换器 (ViT) 的潜力，并在各种下游视觉任务中实现了高性能 [33、30、58] . 其中，Mask Autoencoders (MAE) [28] 表现出卓越的学习能力和可扩展性。受自然语言处理中的 BERT [15, 46, 4] 的启发，MAE 利用非对称编码器和解码器架构，其中编码器的掩码令牌由解码器重建。实验表明，MAE 可以从 ImageNet-1K [14] 中学习判别性和可扩展的表示，而无需依赖于大规模数据集，例如 ImageNet-22K。

探索了局部归纳偏差 [49, 21, 34, 12, 19, 57] 和分层表示 [42, 53] 以提高 ViT 的性能。局部卷积和全局变换器操作的结合导致图像分类[33]、对象检测[30]和语义分割[58]的明显改进。与 MAE [28] 相比，基于本地和全局操作的性能良好的多尺度主干主要以监督方式进行训练。一个自然的问题是，是否可以利用具有局部和全局操作的多尺度主干（在监督学习上显示出有希望的性能）来增强掩蔽自动编码范式 [28、15、2、65]。

在本文中，提出了一种简单有效的自监督学习框架，称为 ConvMAE，通过将混合卷积变换器架构和掩码卷积引入掩码自动编码器来训练可扩展表示。尽管对原始 MAE 的修改很少，但 ConvMAE 在预训练视觉表示以提高各种任务的性能方面取得了巨大成功。

与 MAE [28] 不同，ConvMAE 的编码器将输入图像逐步抽象为多尺度令牌嵌入，而解码器则重建与掩码令牌对应的像素。对于早期的高分辨率令牌嵌入，采用卷积块对本地内容进行编码。对于后期的低分辨率令牌嵌入，转换器块用于聚合全局上下文。因此，编码器在不同阶段获得局部和全局 FOV，并生成有区别的多尺度特征。请注意，ConvMAE 编码器的部分动机是强大的混合卷积和变压器骨干网，包括 Co-AtNet [12]、Early Convolution [57]、Container [21] 和 Uniformer [34]。然而，以前的混合卷积变换器网络要么没有被探索用于掩码自动编码 [21、34、20]，要么表现出与 MAE [52、59] 非常相似的性能。我们没有设计新颖的架构，而是专注于使基本的混合卷积变压器架构适用于掩码自动编码，并进行广泛的实验以证明其在各种下游任务中的有效性。

ConvMAE 的高效训练是通过带有掩码卷积的分块掩码策略实现的 [60、25、31、48、24、40]。当前掩码自动编码框架中采用的掩码策略，如 BEiT [2]、MAE [28]、SimMIM [59]，不能天真地用于 ConvMAE，因为所有令牌都需要保留在后期的转换器阶段。这导致预训练大型模型的计算成本无法承受，失去了 MAE 在转换器编码器中省略掩码标记的效率优势。此外，直接使用卷积变压器编码器进行预训练会导致预训练-微调差异，因为在微调阶段仅处理可见标记。

为了解决这些问题，我们专注于设计适合掩码自动编码的混合卷积变换器架构。具体来说，我们的 ConvMAE 采用分块掩蔽策略，首先为变换器的后期阶段获取掩码，然后在早期卷积阶段逐步将掩码上采样到更大的分辨率。这样，后期处理的token可以完全分离为masked token和可见token，继承了MAE的计算效率。为了防止信息泄漏，早期的卷积块配备了掩码卷积，避免了后期混淆了掩码和可见区域的特征，以确保训练效果。掩蔽卷积在稀疏特征提取[25、48、24、60]和图像修复[40]中得到了很好的探索。它可以自然地集成到混合卷积变压器架构中，以实现掩码自动编码。

我们的 ConvMAE 可以自然地为对象检测和语义分割提供多尺度特征，这是现代检测 [30] 和分割框架 [58] 所需要的。与 MAE 相比，预训练的 ConvMAE 的多尺度特征可以显着提高目标检测和语义分割的性能。带有基于掩码的自动编码的 ConvMAE 甚至可以超越 Swin 和 MViT [42, 36] 的全监督预训练。

总之，我们的贡献可以总结如下： (1) 我们提出了强大而高效的自监督框架 ConvMAE，它易于实现，但在不同的任务上表现出色。 (2) 所提出的 ConvMAE 自然生成分层表示，并在对象检测方面表现出有希望的性能。 (3) ConvMAE-Base 相比 MAE-Base 将 ImageNet 微调精度提高了 1.4%。在带有 Mask-RCNN 的 COCO 2017 上，ConvMAE-Base 在 25 个 epoch 的训练计划中达到 53.2% APbox 和 47.1% APmask，而 MAE-Base 在 100 个训练 epoch 中达到 50.3% APbox 和 44.9% APmask。在带有 UperNet 的 ADE20K 上，ConvMAE-Base 超过 MAE-Base 3.6 mIoU（48.1% 对 51.7%）。

2 方法

2.1 MAE的简要回顾

Masked Autoencoders (MAE) [28] 是一种自我监督的方法，用于通过从可见补丁中重建掩码 RGB 补丁来预训练 ViT。尽管 MAE 的设计很简单，但它已被证明是用于学习视觉演示的强大且可扩展的预训练框架。 MAE 由基于变换器的编码器和解码器组成，其中只有可见的块被输入编码器，解码器处理可学习的掩码令牌以进行图像重建以学习视觉表示。由于编码器只需要处理一小部分可见标记，它缓解了预训练大型视觉模型的可扩展性问题。

2.2 ConvMAE

ConvMAE 是流行的 MAE [28] 的一种简单有效的衍生物，对编码器设计和掩蔽策略进行了最小但有效的修改。 ConvMAE 的目标是学习有区别的多尺度视觉表示，并在将 MAE [28] 应用于卷积变换器网络时防止预训练-微调差异。

直接在卷积变换器编码器的特征图上应用原始掩码策略会使变换器层在预训练期间保留所有标记，从而危及训练效率。我们为卷积阶段引入了分层屏蔽策略和屏蔽卷积，以确保只有少量可见标记输入到变换器层中。 ConvMAE 的整体流程如图 1 所示。

混合Convolution-transformer编码器。之前有强大的混合Convolution-transformer架构，例如 Co-AtNet [12]、Container [21]、BoTNet [49]、Uniformer [34] 和 Early Conv [57]。在不使用如此复杂的架构的情况下，我们展示了多尺度Convolution-transformer编码器的简单设计已经可以为各种下游任务学习强大的表示。如图 1 所示，我们的编码器由 3 个阶段组成，输出空间分辨率分别为 $\\fracH4 \\times \\fracW4$ 、 $\\fracH8 \\times \\fracW8$ 、 $\\fracH16 \\times \\fracW16$ ，其中 H × W 是输入图像分辨率。前两个卷积阶段使用卷积块将输入转换为令牌嵌入 $E_1 \\in \\mathbbR^\\fracH4 \\times \\fracW4 \\times C_1$ 和 $E_2 \\in \\mathbbR^\\fracH8 \\times \\fracW8 \\times C_2$ 。我们的卷积块遵循 Transformer 块的设计原则，仅将自注意力操作替换为 5 × 5 深度卷积。第三个 Transformer 阶段使用常用的自注意力块来获得令牌嵌入 $E_3 \\in \\mathbbR^\\fracH16 \\times \\fracW16 \\times C_3$ 。在每个阶段之间，使用 stride-2 卷积将令牌下采样到其先前空间分辨率的一半。阶段 1 和阶段 2 中的局部卷积具有相对较小的视野，阶段 3 中的变换器块从粗粒度特征中聚合和融合特征，并将视野扩展到整个图像。与其他 ViT 不同，例如 CPT [11]、Container [21]、Uniformer [34]、CMT [26]、Swin [42]，它们用相对位置嵌入或零填充卷积替换绝对位置嵌入 [42]第一阶段的输入 [11, 21, 34, 26]，我们发现将绝对位置嵌入添加到变压器阶段 3 的输入会导致最佳性能。类令牌也从我们的编码器中删除，这显示出有限的影响。

使用掩蔽卷积进行逐块掩蔽。掩码自动编码器，例如 MAE [28] 和 BEiT [2]，在输入标记上采用随机掩码。然而，相同的策略不能直接应用于我们的 ConvMAE 编码器。从 H4 × W4 特征图中统一屏蔽 stage-1 输入标记将导致 stage-3 的所有标记具有部分可见的信息，并且需要保留所有 stage-3 标记。因此，我们建议首先生成随机掩码以屏蔽掉阶段 3 输入标记的 p%（例如，75%），并将掩码上采样 2 倍和 4 倍，以获得用于掩码阶段 2 和阶段的相应分块掩码 -1 输入，分别。三个阶段对应的masked tokens在编码过程中被丢弃，由解码器重构用于特征学习。这样一来，ConvMAE 只需要在耗时的 Transformer 块中保留少至 25% 的 token 即可进行训练，并且不会影响 ConvMAE 的效率。

然而，前两个阶段的 5×5 深度卷积自然会导致感受野大于掩码块，并在重构掩码令牌时导致信息泄漏。为了避免这种信息泄漏并保证预训练的质量，我们在前两个阶段采用了掩蔽卷积[25, 48]，使掩蔽区域永远不会参与编码过程。掩蔽卷积的使用对于 ConvMAE 的卓越性能至关重要，并且通过从阶段移除部分掩蔽标记来防止预训练-测试差异。

多尺度解码器和损失。原始 MAE [28] 的解码器将来自编码器的可见令牌 Ed 和掩码令牌 [Mask] 作为输入，并将它们转换为堆叠的转换器块以进行图像重建。我们的 ConvMAE 编码器获得多尺度特征 E1、E2、E3，捕获细粒度和粗粒度的图像信息。为了更好地监督这种多粒度表示的预训练，我们使用 stride-4 和 stride-2 卷积将 E1 和 E2 下采样到 E3 的相同大小，并通过线性层融合多粒度标记以获得可见标记 Ed ，
$E_d=\\operatornameLinear\\left(\\operatornameStrideConv\\left(E_1, 4\\right)+\\operatornameStrideConv\\left(E_2, 2\\right)+E_3\\right),\\tag1$
其中StrideConv(·, k)表示stride-k卷积。多尺度解码器如图 1 的左下角所示。来自 MAE [28] 的相同损失用于重建蒙版图像块，并且在目标函数中仅考虑蒙版块的重建。

2.3 ConvMAE 用于目标检测和语义分割

经过预训练后，所提出的 ConvMAE 可以自然生成多尺度特征图，可以由现有的对象检测和语义分割头处理。

如图 2 所示，为了微调 ConvMAE 用于目标检测，首先通过 2×2 最大池化 E3 获得 1=32 输入分辨率的 E4 特征图。然而，由于 ConvMAE 阶段 3 有 11 个全局自注意力层（在我们的基于 ConvMAE 的模型中）且计算成本过高，我们遵循 Benchmarking ViT [37] 来替换除 1、4、7、11 之外的所有全局自注意力阶段 3 中的层到移位窗口局部自注意力层 [42]，交替移位 7×7 窗口。修改后的局部自注意力层仍然由预训练的全局自注意力层初始化。全局相对位置偏差 [2, 42, 28, 37] 在全局变换器块之间共享。类似地，局部相对位置偏差 [2, 42, 28, 37] 由局部变压器块共享。这样，第 3 阶段的繁重计算和 GPU 内存成本就大大减轻了。多尺度特征 E1； E2; E3;然后将 E4 送入 MaskRCNN [30] 头部进行对象检测。为了微调 ConvMAE 进行语义分割，它的第 3 阶段架构被保留，因为分割数据集中的图像具有相对较小的分辨率。多尺度特征被输入到 UperNet [58]。

2.4 ConvMAE 用于视频理解

基于注意力的模型 [54, 63, 50, 3, 42] 在视频理解方面表现出卓越的性能。我们的 ConvMAE 还可以扩展为强大的视频预训练框架，被称为 VideoConvMAE，经过简单的修改。具体来说，VideoConvMAE 将图像块嵌入替换为立方体嵌入，之后阶段 1 和阶段 2 使用带掩码的 3D 卷积执行局部时空特征融合。第三阶段仍然采用堆叠的变压器块进行时空融合。空间位置嵌入扩展到时空嵌入。与第 2.2 节中提出的多尺度解码器类似，阶段 1、2 和 3 的输出在馈入时空变换器解码器以进行掩码像素重建之前进行融合。关于 VideoConvMAE 预训练的详细信息在附录 B 中。请注意，与以前的方法不同，它初始化在图像 [34、36、7] 上预训练的模型，我们的 VideoConvMAE 是在纯视频数据集上从头开始预训练的。

3 实验

为了验证我们提出的 ConvMAE，我们在 ImageNet-1K [14] 数据集上进行了图像分类实验。预训练的 ConvMAE 还在对象检测和语义分割方面进行了广泛测试。默认情况下，我们报告具有多尺度解码器的基于 ConvMAE 的模型的性能，它具有与基于 MAE 的相似的参数和 FLOP。

3.1 ImageNet-1K 预训练和微调

__实验设置。 __ImageNet-1K [14] 由 1k 个类别的 130 万张图像组成，用于图像分类，并分为训练集和验证集。我们在 ImageNet-1K 训练集上预训练 ConvMAE。默认情况下，我们按照原始 MAE [28] 将掩码率固定为 25%。解码器设计为具有 8 个具有 512 个特征维度和 12 个注意力头的转换器层。我们采用 1600 个 epoch 的余弦学习率计划，前 40 个 epoch 用于热身。 AdamW 优化器以 1.5 × 10−4 的基本学习率、0.05 的权重衰减和 1024 的批量大小使用。在预训练期间使用随机裁剪作为数据增强。预训练后，ConvMAE 编码器用于使用余弦学习率计划对 ImageNet-1K 训练集进行 100 个 epoch 的监督微调。我们遵循原始 MAE [28] 的默认微调参数，除了逐层学习率衰减参数（0.65、0.75、0.85）。对于微调，我们报告了微调和预训练（线性探针）ConvMAE 编码器的 ImageNet 验证集的分类精度。

__ImageNet-1K 微调结果。__我们在表 1 上报告了 ConvMAE 的准确性，并与最先进的掩码自动编码方法进行了比较。 BEiT [2] 通过预测由 DALL-E 编码器标记的视觉标记来预训练 ViT-B。通过 300 epoch 的预训练，BEiT 可以达到 83.0% 的微调精度和 37.6% 的线性探测精度。与 BEiT 相比，ConvMAE 在编码器中仅处理 25% 的可见标记，并具有用于重建的轻量级解码器。 ConvMAE 可以大大超过其微调精度和线性探针精度（+2.0%/+33.3%）。与预训练 1,600 个 epoch 的原始 MAE 相比，我们的 ConvMAE 在相同数量的预训练 epoch 下超过其微调精度 1.4%。 SimMIM [59] 采用 Swin-B [42] 来生成分层表示。 ConvMAE 在其微调精度上取得了改进（+1.0%）。 MaskFeat [55] 使用 HOG [13] 特征作为预测目标。 Data2vec [1] 结合了动量编码器 [29] 以在线方式生成预测。 MaskFeat 和 Data2vec 的计算成本都比我们的 ConvMAE 高。它们可以被认为是改进掩码自动编码方案的互补方向。

3.2 物体检测

__实验设置。 __COCO 数据集 [39] 已被广泛用于基准目标检测框架。 Mask-RCNN [30] 是最流行的目标检测框架之一。我们使用预训练 ConvMAE 的编码器作为 Mask-RCNN 的主干。我们在 COCO train2017 split 上微调 MaskRCNN，并在 val2017 split 上报告 APbox 和 APmask。我们遵循 Benchmarking ViT [37] 的大多数设置。我们报告了模型在 25 个 epoch 余弦调度下的目标检测性能，基础学习率为 8.0 × 10−5，权重衰减为 0.1。

__COCO 2017 上的结果。__我们在表 2 中比较了最先进的视觉骨干的性能。基准 ViT [37] 广泛探索了使用带有 Mask-RCNN 的普通 ViT。与在 COCO 上微调 100 个 epoch 的 Benchmarkin ViT [37] 相比，ConvMAE 通过 25 个微调 epoch 可以显着提高 APbox 和 APmask 2.9% 和 2.2%。 ViTDet [35] 通过引入一个简单的特征金字塔模块改进了 Benchmarking ViT [37]。 MIMDet [20] 添加了一个随机初始化的卷积干并随机丢弃输入标记，以提高 Mask-RCNN [30] 的训练效率。请注意，由于 MAE 解码器的结合，MIMDet [20] 引入了额外的参数。与 Benchmarking ViT [37] 的改进版本相比，例如 ViTDet [35] 和 MIMDet [20]，ConvMAE 以更短的微调计划（25 个 epoch 与 100/36 个 epoch）、更少的参数（ 104M vs 111M/127M) 和类似的 FLOPs (0.9T)。这验证了我们提出的 ConvMAE 框架的有效性。 Swin [42] 和 MViTv2 [36] 是最先进的分层视觉骨干。虽然采用了更简单的多阶段架构，但在 APbox/APmask 方面，ConvMAE 比 Swin 和 MViTv2 分别高出 4.0%/3.6% 和 2.2%/1.4%。请注意，Swin [42] 和 MViT [36] v2 以有监督的方式使用 100% 令牌预训练了 300 个 epoch，而 ConvMAE 仅使用具有 25% 可见令牌的掩码自动编码器进行预训练，这对于目标检测是有效的。

3.3 语义分割

实验设置。 ADE20K [64] 是一个广泛使用的语义分割数据集，包含 150 个细粒度类别的 25,562 张图像。数据集分为训练集、验证集和测试集。我们利用 UperNet [58]，一个分层分割网络头来比较 ConvMAE 与其他骨干网。我们的带有 UperNet [58] 的 ConvMAE 在 ADE20K 训练集上进行了微调，并在验证拆分上进行了测试。在训练阶段，使用在 ImageNet-1K 上预训练 1600 个 epoch 的权重初始化主干，并使用 Xavier 初始化其他模块。我们采用 16k 次迭代多项式学习率计划，前 1500 次迭代用于热身。采用 AdamW [44] 优化器，初始学习率为 10−4，权重衰减为 0.05，批量大小为 16。我们遵循 ADE20K 上 MAE 的默认微调配置，除了解码器头的特征尺寸和逐层学习率衰减设置为 0.75。

ADE-20K 的结果。 我们在表 3 中报告了 ConvMAE 和其他最先进的骨干网的平均交集（mIoU）性能。通过 300 epoch 的预训练，MoCo V3 [10] 在语义分割上进行微调时可以达到 47.2 mIoU。 BEiT [2]、PeCo [17] 和 CAE [9] 利用离散 VAE 作为可视化标记器来创建目标。 BEiT 和 CAE 都采用在 250M 图像上训练的 DALL-E [47] 码本，而 PeCo 仅在 ImageNet-1K 上训练码本。与这些方法相比，我们的 1600 epoch 预训练 ConvMAE 实现了更高的性能（51.7%）。与 MAE 预训练的 1600 个 epoch 相比，我们的 ConvMAE 优于它 3.6% mIoU，证明 ConvMAE 的层次表示在很大程度上减少了预训练的主干网络和下游网络之间的传输差距。

3.4 视频理解

实验设置。 为了验证 VideoConvMAE 的视频理解能力，我们独立地对 Kinetics-400 (K400) [32] 和 Something-something V2 (SSV2) [23] 进行了预训练，并报告了 K400 和 SSV2 的微调精度。视频预训练和微调协议紧密遵循第 3.1 节中解释的图像协议。对于 SSV2，我们微调 50 个 epoch 并关闭翻转增强。与图像预训练中的随机掩蔽不同，VideoMAE 提出的具有 90% 掩蔽率的管掩蔽 [50] 被用作默认掩蔽策略。为了进行测试，我们使用与 VideoMAE 相同数量的视图进行公平比较，即 Kinetics-400 为 3 个空间 × 5 个时间视图，Something-Something-v2 为 3 个空间 × 2 个时间视图。所有结果均仅使用微调数据集报告，没有额外的图像或视频数据。

__K400 和 SSV2 的结果。 __我们将 K400 和 SSV2 上的微调精度与 VideoMAE [50] 在不同的预训练时期进行比较。如图 3 所示，VideoConvMAE 在 200 和 800 个预训练时期明显优于 VideoMAE。值得注意的是，在 Kinetics-400 上，经过 200 个 epoch 的预训练 VideoConvMAE 在 1600 个 epoch 时的性能略优于 VideoMAE，而带有多尺度解码器的 800 个 epoch 的预训练 VideoConvMAE 在 1600 个 epoch 的性能优于 VideoMAE 2.9% 以上。在 Something-Something-v2 上，我们的 800 epoch 模型与多尺度解码器在 2400 epochs 上略微优于 VideoMAE，这表明预训练 epochs 减少了 3 倍。

3.5 ConvMAE的消融研究

我们对 ConvMAE 进行了广泛的消融研究，以分析 ConvMAE 的不同成分（见表 5 和表 6）。默认情况下，我们报告在消融研究期间没有多尺度解码器的 ConvMAE 的性能。

预训练时期。 对于 MAE，更长的预训练 epoch 可以显着改善学习到的学习表征。我们使用 200、400、800 和 1600 个 epoch 对 ConvMAE-Base 进行预训练，以测试对 ConvMAE 的影响。我们在表 4 中报告了 ImageNet-1K 微调 (FT) 和线性探针 (LIN) 精度、COCO 的 APbox 和 APmask、ADE20K 的 mIoU。我们观察到大多数下游任务的性能提高，预训练时间更长。

输入令牌随机掩码。 如表 5 所示，我们用 MAE 的输入令牌随机掩码替换了建议的分块掩码策略。与我们的 ConvMAE-base 相比，ImageNet-1K 微调精度从 84.6% 下降到 84.2%，这验证了所提出的简单块状掩码策略可以缓解预训练-微调差异。输入令牌随机屏蔽导致第 3 阶段中的所有令牌都由计算密集型转换器块处理，并导致 FLOPs 增加 1.7 倍。

掩蔽卷积的影响。 Masked Convolution 可以防止由于卷积中的重叠窗口而导致的信息泄漏。去除掩码卷积将 ImageNet-1K 微调精度从 84.6% 降低到 81.5%，这表明卷积阶段的信息泄漏阻碍了掩码自动编码中的特征学习。

第 1 阶段和第 2 阶段的卷积核大小。 扩大卷积中的内核大小被证明对语义分割 [45] 和视觉骨干设计 [16, 43] 是有效的。我们还测试了将阶段 1 和 2 中的 5 × 5 内核大小扩大到 7 × 7 和 9 × 9。如表 5 所示，我们观察到较大的内核大小几乎不会影响 ConvMAE 在 ImageNet-1K 精度上的性能。我们假设第 3 阶段的转换器模块已经提供了一个全局 FOV，可以抵消从大内核引入的增益。

多尺度解码器。 在表 6 中，我们将多尺度解码器合并到基于 ConvMAE 的基础上，并对 200 和 1600 个 epoch 进行预训练。与 ConvMAE 预训练 200 个 epoch 相比，多尺度解码器可以提高分类准确率、检测 AP 框、检测 AP 掩码和分割 mIoU，分别提高 0.3%、0.6% 和 0.6% 和 0.4%。给定更长的预训练时间，多尺度解码器可以将分类准确率、线性探针准确率、检测 AP 框、检测 AP 掩码和分割 mIoU 分别提高 0.4%、1.6%、0.7%、0.6%、1.0%。这表明融合多粒度标记用于掩模重建可以导致强大的表示。未来我们将探索更先进的多尺度解码器架构，例如 UNet。

收敛速度。 我们在图 4 中比较了 ConvMAE 和 MAE 在 ImageNet-1K 微调、线性探测精度和 COCO AP 框方面的收敛性。为了公平比较，ConvMAE 和 MAE 都经过了 1600 个 epoch 的预训练。 ConvMAE 不仅获得了强大的最终结果，而且显着提高了各种任务的收敛速度。具体来说，ConvMAE 在 ImageNet-1K 微调上的 58 个 epoch 时可以超过 MAE 的最终性能。在 COCO 目标检测上，ConvMAE 在 16 个 epoch 上超过 MAE，表明收敛速度快了 6.6 倍。

4 相关工作

视觉转换器。 Vision Transformer(ViT) [18, 5] 在各种视觉任务上取得了最先进的结果。为了提高收敛速度和提高准确性，已将经过充分探索的局部归纳偏置重新引入视觉转换器 [66, 22, 62, 41, 27, 61, 51, 19, 56, 26]，其中，卷积的混合架构和变压器设计 [49, 57, 12, 21, 34] 可以实现各种任务的最先进性能。我们的 ConvMAE 受到视觉骨干中的混合架构设计 [21, 34, 12, 57] 的高度激励。 ConvMAE 不是设计新架构，而是旨在通过 MAE 风格的预训练和一些有见地的修改来释放由混合架构引起的强大表示。

自监督表示学习。对比学习 [8, 29, 6, 10] 通过比较未标记图像的增强视图来学习不变性。最近，由 BERT [15] 提出的 Mask-Autoencoding 提出了一种有前途的方法。 Mask-Autoencoding 可以通过带有简单数据增强的 masked patch 重建来学习强表示。 BEiT [2] 将 MaskAutoencoding 引入视觉社区。 MAE [28] 引入了一种非对称编码器和解码器架构，其中在计算量大的编码器中跳过了掩码令牌，并且仅将所有令牌通过轻量级解码器。 iBoT [65] 和 Data2Vec [1]、PeCo [17] 和 MaskFeat [55] 探索不同的重建目标。与之前对 Mask-autoencoding 的改进不同，ConvMAE 将分层表示体系结构引入 MAE。

5 结论

我们提出了一个名为 ConvMAE 的简单自监督学习框架，它证明了混合局部-全局块 [21、34、26、19、57、49] 可以提高 MAE [28] 的性能以生成有区别的多尺度特征 [ 38、53、42]。在我们的 ConvMAE 下，原始 MAE 的计算效率和低预训练-微调差距可以很好地保持。 ConvMAE 在各种视觉任务上表现出显着提高的性能，并且可以轻松实现。我们将在未来研究将改进的重建目标与 ConvMAE 相结合。负面社会影响：我们预计拟议工作不会产生负面社会影响。

以上是关于ConvMAE：Masked Convolution 遇到 Masked Autoencoders的主要内容，如果未能解决你的问题，请参考以下文章