使用Transformers端到端目标识别

Posted 2021-05-22 人工智能博士

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了使用Transformers端到端目标识别相关的知识，希望对你有一定的参考价值。

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：网络

End-to-End Object Detection with Transformers

作者：Nicolas Carion、Francisco Massa、Gabriel Synnaeve 等
论文链接：https://arxiv.org/pdf/2005.12872v1.pdf

摘要：近年来，Transformer 成为了深度学习领域非常受欢迎的一种架构，它依赖于一种简单但却十分强大的机制——注意力机制，使得 AI 模型有选择地聚焦于输入的某些部分，因此推理更加高效。Transformer 已经广泛应用于序列数据的处理，尤其是在语言建模、机器翻译等自然语言处理领域。此外，它在语音识别、符号数学、强化学习等多个领域也有应用。但令人意外的是，计算机视觉领域一直还未被 Transformer 所席卷。

为了填补这一空白，Facebook AI 的研究者推出了 Transformer 的视觉版本—Detection Transformer（以下简称 DETR），用于目标检测和全景分割。与之前的目标检测系统相比，DETR 的架构进行了根本上的改变。这是第一个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架。在性能上，DETR 可以媲美当前的 SOTA 方法，但架构得到了极大简化。

具体来说，研究者在 COCO 目标检测数据集上将 DETR 与 Faster R-CNN 基线方法进行了对比，结果发现 DETR 在大型目标上的检测性能要优于 Faster R-CNN，但在小目标的检测上性能不如后者，这为今后 DETR 的改进提供了新的方向。