OW-DETR | 基于 Transformer 的开放世界目标检测器

Posted 2022-09-21 极智视界

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了OW-DETR | 基于 Transformer 的开放世界目标检测器相关的知识，希望对你有一定的参考价值。

欢迎关注我的公众号 [极智视界]，获取我的更多笔记分享

大家好，我是极智视界，本文解读一下 基于 Transformer 的开放世界目标检测器 OW-DETR。

开放世界目标检测 (OWOD) 是一个具有挑战性的计算机视觉问题，其任务是检测一组已知的目标类别，同时还能够识别未知的目标。此外，模型还必须逐步学习在训练中加入的新类别。与标准的目标检测不同，OWOD 对于在潜在的未知目标上生成高质量的候选建议、将未知目标从背景中分离出来 以及 检测不同的未知目标 提出了重大挑战。本文中，作者提出了一种新的基于端到端 transformer 的框架 OW-DETR，用于开放世界目标检测。提出的 OW-DETR 包括三个专门的组件，即注意力驱动的伪标签、新类别分类 以及 目标性评分 来明确上述的 OWOD 挑战。作者提出的 OW-DETR 显式编码多尺度上下文信息，具有较少的归纳偏置，使知识能够从已知的类别转移到未知类别，并能更好地区分未知目标和背景。在 MS-COCO 和 PASCAL VOC 两个基准上进行了综合实验，进行了广泛的消融实验证明了所提方法的优点。此外，提出的模型就 MS-COCO 的未知类别召回率而言，还优于最近引入 OWOD 方法的 ORE，召回率提高了 1.8% ~ 3.3%。而在增量目标检测中，在 PASCAL VOC 上要优于所有的 state-of-the-art 方法。

论文地址：https://arxiv.org/abs/2112.01513

代码地址：https://github.com/akshitac8/OW-DETR

文章目录

1. 简介

开放世界目标检测 (OWOD) 放宽了流行的基准测试中的封闭世界假设，在这种假设中，只有可见的类会出现在推理中。在 OWOD 范例中，在每个训练集里，模型学习检测已知目标的给定集合，同时还能够识别未知的目标。然后，这些标记为未知的信息可以转发给 oracle (人工标注器)，它可以标注一些感兴趣的类。有了这些新的已知信息，模型将继续增量地更新它的知识，而不必从头开始对先前已知的类进行重新训练。这个迭代的学习过程在模型的生命周期中循环进行。

在 OWOD 场景下的未知目标类的识别对传统检测器提出了重大挑战。首先，除了需要为已知目标生成精确的建议集外，检测器还必须为潜在的未知目标生成高质量的候选框。其次，模型应该能够利用它已有的对于见过的知识，从背景中分离出没有见过的目标，从而了解是什么构成了一个有效的目标。最后，通过灵活的建模不同大小目标丰富的上下文信息和共现目标关系，来检测不同大小的目标。

最近，《Towards open world object detection》的工作引入了一种基于 two-stage Faster RCNN pipeline 的开放世界目标检测器 ORE。由于在开放世界范式的训练过程中，未知目标的注释不可用，ORE 建议利用一个自动标注步骤来获得一组用于训练的 pseudo-unknowns。自动标注是由区域建议网络 (RPF) 输出的类无关建议来执行的。与已知目标 (GT) 不重叠但 “目标性” 得分高的建议会被自动标注为未知目标并用于训练，然后用这些自动标注的未知项与 GT 已知项一起执行潜在空间聚类。这种聚类试图将潜在空间中的多个已知类和未知类分离开来，这有助于学习未知类的原型。此外，ORE 学习一个基于能量的二进制分类器来区分来自 class-agnostic 已知类中的未知类。

ORE 是第一个直面 OWOD 的方法，但也遇到了一些问题。(1) ORE 基于能量分类器的新类别的分布依赖于对未知目标监督较弱的保留验证集；(2) 为了进行对比聚类，ORE 使用单个潜在原型学习未知的类别，这不足以对未知目标中普遍存在的各种类内变化进行建模。因此，这可能导致已知和未知之间的次优分离；(3) 由于基于卷积的设计，ORE 没有显式地编码远程依赖关系，而远程依赖关系对于捕获不同目标图像中的上下文信息至关重要。作者着手设计方法缓解以上问题，以应对 OWOD 任务。

本文贡献：基于上述观察，引入了一个基于视觉 transformer 的多尺度上下文感知检测框架，该框架具有专门的组件来处理开放世界任务，包括注意力驱动的伪标签、新类别分类和目标性评分，以有效地检测图像中的未知目标，如图1所示。

具体来说，与 ORE 相比 (two-stage CNN pipeline)，这里的方法是基于 transformer 的 single-stage 框架，只需要较少的归纳偏置，可以在多尺度上对长期依赖进行编码，以丰富上下文信息。与 ORE 不同的是，ORE 依赖于一个保留验证集来估计新类别的分布，本文的方法假设对未知的情况不进行监督，这样更加接近于真正的开放世界场景。总的来说，作者的新设计提供了更大的灵活性，使用更加宽的上下文建模和更加少的假设来解决开放世界目标检测问题。论文的主要贡献是：

(1) 提出了一种基于 transformer 的开放世界检测器 (OW-DETR)，该检测器可以更加好地模拟具有多尺度自注意力和可变接收域的场景，此外还可以减少对开放世界设置的假设以减少归纳偏置；

(2) 提出了一种注意力驱动伪标签方案，用于选择注意值较高但又不属于任何已知类的目标 query boxes 作为未知类；

(3) 利用伪未知项和已知项来学习新类别分类器，以区分未知目标和已知目标；

(4) 引入了一个目标性分支，通过使知识从已知类转移到未知类 (构成前景目标的特征) 来有效地学习前景目标(已知的、伪未知的) 和背景之间的分离；

(5) 在两个流行的基准上进行了大量的实验，证明了所提的 OW-DETR 方法的有效性，对于 OWOD 和增量目标检测任务，OW-DETR 优于最近提出的 ORE。

2. 方法

问题建模：

2.1 整体架构

图2展示了所提出的开放世界目标检测 transformer OW-DETR 的总体架构。

将标准的可变性 DETR (DDETR) 用于开放世界目标检测问题 (OWOD)：(1) 注意力驱动的伪标签机制，用于选择可能的未知 query 候选项；(2) 一个新类别分类的分支，用于学习将目标 queries 分类为众多已知类或未知类之一；(3) 一个 “目标性” 分支，用于学习从背景中分离前景对象 (真实的已知 ground-truth 和伪标签的的未知实例)。在提出的 OW-DETR 中，特征提取 backbone 的输入是空间大小为 HxW 的图像I 和一组目标实例Y。在不同分辨率下获得 D 维多尺度特征，并输入到包含多尺度可变性注意力模块的 encoder-decoder。该解码器将一组 M 个可学习的目标 queries，在交叉注意力和自注意力模块的辅助下，转换为一组 M 个目标 query 嵌入到 qe∈R^D 中，对图像中潜在的目标实例进行编码。

然后 qe 被输入到三个分支：bounding box 回归、新类别分类和目标性。新类别分类 (Fcls) 和目标性 (Fobj) 分支是单层前馈网络 (FFN)，回归分支 Freg 是三层 FFN。基于类别和框坐标的二部匹配损失被用来选择最匹配 ground-truth (GT) 已知实例的唯一 queries，然后利用剩下的目标 queries 来选择候选的未知类别实例。为此，利用从 backbone 的潜在特征映射中获得的注意力映射 A 来计算 query qe 的目标性评分 so。因此，这个得分是基于 A 中 query 的感兴趣区域内的激活幅度。因此，得分较高的 queries 被选为候选实例，并被伪标注为 “未知”。这些伪标注的未知 queries 和真实的已知 queries 一起被用作前景目标来训练目标性分支。此外，当回归分支预测边界框时，新类别分类分支将 query 分类为许多已知类和未知类中的一个。提出的 OW-DETR 框架使用专门的损失函数进行端到端的训练，包括新类别分类损失、目标性评分损失以及 bounding box 回归损失。

2.2 多尺度上下文编码

由于图像中可能出现的未知目标具有多样性，在对其丰富的上下文进行编码的同时检测不同大小的目标是开放世界目标检测 (OWOD) 的主要挑战之一。想要编码这样丰富的上下文需要从图像的多个尺度上、大的接收域上捕获长期依赖关系。此外，在框架中需要只包含较少的归纳偏置，这样可以在测试过程中对未知目标做出更加少的假设。

采用 single-stage Deformable DETR (DDETR)，该方法是端到端可训练的，由于能够编码长期的多尺度上下文，切归纳偏置较少，因此在标准目标检测中表现出了良好的性能。DDETR 在 DETR 的 transformer encoder 和 decoder 层中引入了多尺度可变形注意力模块，对多尺度上下文进行编码，收敛性更加好，复杂度更加低。多尺度可变形注意力模块基于可变形卷积，只关注参考点周围的少数固定数量的关键采样点。这种抽样是跨多尺度特征映射执行的，可以在更加大的接收域上编码更丰富的上下文。尽管对目标检测任务实现了良好的性能，标准 DDETR 并不适合在 OWOD 任务中检测未知的目标。为了能够检测到新类别的目标，引入了一个注意力驱动的伪标注方案以及新类别分类和目标性分支。

2.3 注意力驱动的伪标注

为了在训练集中没有任何对应注释的情况下学习检测未知目标，OWOD 框架必须依赖于选择出现在训练图像中的潜在未知实例，并在训练过程中将其作为伪未知类。ORE 的 OWOD 方法选择具有高目标性评分的且不与作为伪 ground-truth 的已知实例重叠的建议。从 two-stage 检测器 RPN 得到的这些建议很可能偏向于已知类，因为它是在已知类的强大监督下训练来的。而本文与这种策略不同的是，引入了一种自底向上的注意力驱动伪标注方法，该方案在 single-stage 目标检测器上具有更加好的泛化性和适用性。特征激活的幅度给出了在该空间未知存在目标的指示，因此可以用于计算窗口内目标的可信度。目标性评分 so(b) 可以用公式(1)进行计算。

未知目标的 bounding boxes 由对应的回归分支预测给出，如图3。

2.4 新类别分类

ORE 引入了一个基于能量的未知ID，用于在已知类和未知类之间对建议进行分类。然而，它依赖于一个具有弱未知监督的保留验证集来学习已知类和未知类的能量分布。相比之下，OW-DETR 不需要任何未知目标监督，而是完全依赖于使用注意力驱动伪标注来选择伪未知类。此外，标准 DDETR 中的分类分支 Fcls 对将 qe 嵌入到一个已知类或背景中的目标 query 进行分类。然而，当遇到一个未知的目标时，它不能将其分类为一个新的类别。为了克服这些问题，并使 OW-DETR 框架只是使用选定的伪未知目标来进行训练，作者在分类分支中为新目标引入了一个类标签，然后用与新类别分类分支 Fcls 中的新类别相关联的伪标签 (为了方便起见设置为 0)，被选择为伪未知类的 query 嵌入 qe 进行训练。在分类分支中引入新类别标签可以使 qe 在 OW-DETR 中被分类为未知目标，否则就会像在标准目标检测任务中一样被作为背景进行学习。这有助于我们的模型从背景中区分潜在的未知目标。

2.5 前景目标性

如上，新类别分类分支 Fcls 是特定于类的，它将一个 query 嵌入到一个 C+1 类中：C 个已知类或 1个未知类或背景。虽然这允许学习已知类和未知类之间特定于类的可分离性，但它不允许将知识从已知目标转移到未知目标，而这对于理解在 OWOD 任务中是什么构成未知目标至关重要。此外，由于缺乏未知类的监督，注意力驱动伪标注的准确性可能较低，这将导致大多数 query 嵌入都将在背景中进行预测。为了缓解这个问题，引入了一个前景目标性分支 Fobj，它对 query 嵌入 qe 的 “目标性” 进行评分，以便更加好地将前景目标 (已知的和未知的) 从背景中分离出来。学习把与前景目标相对应的 queries 评分高于背景，这样可以改进对未知目标的检测，否则这些目标将被检测为背景。这种类无关的评分还有助于模型将知识从已知类转移到未知类，即构成前景目标的特征。

2.6 训练和推理

Training: OW-DETR 框架使用联合损失函数 (公式(2)) 进行端到端的训练。

这里的 α 表示目标评分的权重因子。另外采用基于重新加入范例的微调来减轻之前学习过的类的灾难性遗忘。

Inference: 对测试图像 I 计算 M 个目标 query 嵌入到 qe，得到相应的 bounding box 和类别预测。

3. 实验

MS-COCO 的 80 个类被分成 4 个任务，如图4所示。

表1展示了 OW-DETR 与 MS-COCO 上最近引入的针对 OWOD 问题的 ORE 方法的比较。

表2展示了 OW-DETR 与 PASCAL VOC 2007 上现有方法的比较。

表3展示了逐步将作者的贡献集成到 OWOD 问题的 baseline 框架中的影响。

表4遵循了与《 Dropout sampling for robust object detection in open-set conditions》中相同的评测方案，并展示了性能数据。

图5展示了 MS-COCO 测试集实例图像的定性结果以及它们对应的注意力映射 A。

4. 总结

针对开放世界目标检测问题，作者提出了一种新的基于 transformer 的方法：OW-DETR。提出的 OW-DETR 包含专门的组件来处理开放世界任务，包括注意力驱动的伪标注、新类别分类和目标性评分，以便准确地检测图像中的未知目标。作者对 PASCAL VOC 和 MS COCO 这两种常用的 benckmarks 进行了广泛的实验。对于 MS COCO 数据集上的所有任务设置，OW-DETR 始终优于最近引入的 ORE。此外，在 PASCAL VOC 数据集上的增量目标检测情况下，OW-DETR 也实现了最先进的性能。

5. 参考

[1] OW-DETR: Open-world Detection Transformer.

[2] Towards open world object detection.

[3] Dropout sampling for robust object detection in open-set conditions.

好了，以上解读了基于 Transformer 的开放世界目标检测器 OW-DETR。希望我的分享能对你的学习有一点帮助。

【极智视界】

《OW-DETR | 基于 Transformer 的开放世界目标检测器》

搜索关注我的微信公众号【极智视界】，获取我的更多经验分享，让我们用极致+极客的心态来迎接AI ！

以上是关于OW-DETR | 基于 Transformer 的开放世界目标检测器的主要内容，如果未能解决你的问题，请参考以下文章