CBNetV2论文的译读笔记

Posted 2022-01-31 songyuc

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CBNetV2论文的译读笔记相关的知识，希望对你有一定的参考价值。

论文名称

CBNetV2: A Composite Backbone Network Architecture for Object Detection

摘要

如今性能最好的目标检测器在很大程度上依赖于骨干网络，其进步会带来一贯的性能提升，而这需要探索更有效的网络结构。在本文中，作者提出了新型可伸缩的主干网络架构，称为CBNetV2，使用“已有的”开源预训练主干网络并使用 pre-training fine-tuning范式构建高性能的检测器。特别的是，CBNetV2框架组合多个相同的主干网络，这些网络通过复合连接相连。具体来说，它融合了多个主干网络的高层和低层特征并逐步扩展其感受野葱而更加有效地实现目标检测。作者还给基于CBNet的检测其提出了一种更好的训练策略—— assistant supervision。CBNetV2对于检测器架构中使用不同主干网络或者head设计都据iyou很强的泛化能力。在复合的主干网络没有额外预训练的情况下，CBNetV2可以适应于不同的backbones（例如：基于CNN和基于Transformer），以及大多数主流检测器的head设计（例如：one-stage vs .two-stage、anchor-based vs. anchor-free-based）。实验结果表明，相较于单纯加大网络的深度和宽度，CBNetV2能够用一种效果更好、效率更高且资源优化的方式来，构建高性能的主干网络。值的注意的是，基于CBNetV2的DualSwin-L模型在COCO-test-dev上实现了59.4%-box-AP以及51.6%-mask-AP，这是在单模和单尺度测试模式下实现的，比Swin-L模型实现的SOTA结果（例如：57.7%-box-AP和50.2%-mask-AP）相比有显著的提升；并且本文模型的训练周期缩短了6倍。在使用多尺度测试的情况下，本文模型将当前最好的单模结果提升到一个全新的记录，60.1%-box-AP以及52.3%-mask-AP，且不需要额外的训练数据。代码开源在https://github.com/VDIGPKU/CBNetV2。

以上是关于CBNetV2论文的译读笔记的主要内容，如果未能解决你的问题，请参考以下文章

Focal Loss for Dense Object Detection 的译读笔记

PP-YOLOE的译读笔记