第59篇MetaFormer实际上是你所需要的视觉

Posted 2022-12-17 AI浩

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第59篇MetaFormer实际上是你所需要的视觉相关的知识，希望对你有一定的参考价值。

transformer在计算机视觉任务中显示出了巨大的潜力。人们普遍认为，他们基于注意力的token混合器模块对他们的能力贡献最大。然而，最近的工作表明，transformer中基于注意力的模块可以被空间mlp取代，得到的模型仍然表现相当好。基于这一观察，本文假设transformer的通用架构，而不是特定的token mixer模块，对模型的性能更重要。为验证这一点，故意用一个简单得令人尴尬的空间池化操作符取代transformer中的注意力模块，以只进行基本的token混合。提出的模型称为PoolFormer，在多个计算机视觉任务上实现了有竞争力的性能。例如，在ImageNet-1K上，PoolFormer实现了82.1%的top-1精度，比经过良好调整的视觉Transformer/类mlp基线DeiT-B/ResMLP-B24提高了0.3%/1.1%的精度，参数减少了35%/52%，mac减少了50%/62%。PoolFormer的有效性验证了我们的假设，并敦促我们发起" MetaFormer "的概念，一种从transformer抽象出来的通用架构，而不指定token混合器。MetaFormer是在最近的Transformer和类mlp模型在视觉任务上取得优越结果的关键角色。这项工作呼吁未来进行更多致力于改进MetaFormer的研究，而不是专注于token mixer模块。所提出的PoolFormer可以作为未来MetaFormer架构设计的起始基线。

1. 介绍

transformer在计算机视觉领域获得了极大的兴趣和成功[3,8,44,55]。自从视觉Transformer (ViT)[17]将纯Tra

以上是关于第59篇MetaFormer实际上是你所需要的视觉的主要内容，如果未能解决你的问题，请参考以下文章

PoolFormer解读

全网首篇深度剖析PoolFormer模型，带你揭开MetaFormer的神秘面纱

C#线程篇---你所不知道的线程池