极智Paper | MAUM 直面跨模态行人re-ID

Posted 2022-09-16 极智视界

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了极智Paper | MAUM 直面跨模态行人re-ID相关的知识，希望对你有一定的参考价值。

欢迎关注我的公众号 [极智视界]，获取我的更多笔记分享

大家好，我是极智视界，本文解读一下 MAUM 直面跨模态行人 re-ID。

本文通过抑制模态差异来解决跨模态行人重识别 (re-ID) 问题。在跨模态 re-ID 中，query 和 gallery 图像是不同的模态。给定一个训练 ID，流行的深度分类 baseline 是对两种模态共享相同的代理 (即最后一层的权重向量)。作者发现这样的做法对模态差异有相当大的容忍度，因为共享代理会作为两个模态之间的中间中继。为此，提出了一种记忆增强单向度量学习方法 (MAUM)，包括两种新的设计，即 单向度量 和 基于记忆的增强。具体来说，MAUM 首先在每个模态下独立学习特定模态代理 (MS-Proxies)，之后，MAUM 使用已经学习过的 MS-Proxies 作为静态引用，在对应的模态中关闭特征。这两个单向的指标 (IR图像到RGB代理以及 RGB图像到IR代理) 共同缓解了中继效应，有利于跨模态联合。通过将 MS-Proxies 存储到 memory banks 以增加参考的多样性，进一步增强了跨模态关联。作者展示了 MAUM 在模态平衡情景下，改善了跨模态 re-ID 的效果，另外对于模态不平衡情景也具有很好的鲁棒性。并在 SYSU-MM01 和 RegDB 数据集上进行了大量实验证明了 MAUM 的优越性。相关代码即将开源。

论文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_Learning_Memory-Augmented_Unidirectional_Metrics_for_Cross-Modality_Person_Re-Identification_CVPR_2022_paper.pdf

文章目录

1. 简介

本文主要研究跨模态的行人重识别问题 (re-ID)。Re-ID 旨在从数据库中检索相关人员图像的任务，现实世界的 re-ID 系统有时需要不分昼夜地识别同一个人。为此，需要使用了两种不同的设备：白天的 RGB 相机、晚上的红外 (IR) 相机。当 query 和 gallery 图像来自不同的模态时，显著的模态差异 是最突出的挑战。在本文中，作者试图通过解决模态差异来改进跨模态 re-ID 的效果。从度量学习的观点来看，re-ID 的主旨是学习一个具有 **类内紧凑 ** 和 类间分离 的嵌入空间。基于深度分类学习 baseline 是用于 re-ID 和人脸识别任务的一种流行方法。在训练过程中，它将所有相同 ID 的特征拉向一个对应的代理 (即分类层中的权重向量)。

当将这一 baseline 应用于跨模态 re-ID 时，作者发现模态差异问题显著阻碍了类内紧凑性，如图1 (a)。在baseline 中，不管其底层模式如何，相同 ID 的所有实例共享一个代理。模态无关的代理努力适应 IR 和 RGB 特性，并充当它们之间的中间中继，这样的中继效应导致对模态差异有相当大的容忍度。从图1 (a) 中的 t-SNE 可视化中可以观察到，两种模态的特征之间存在明显的模态差异。不同 ID 相同模态的特征比相同 ID 不同模态的特征更加接近。例如，ID116 和 ID119 的类间距离小于 ID-116 的类内距离。

为了抑制模态差异，作者提出了一种记忆增强单向度量学习方法 (MAUM)，它有两个新颖的设计，即 (1) 学习单向度量；(2) 使用 memory bank 增强。

首先，学习了两个单向指标 (“IR” 到 “RGB” 和 “RGB” 到 “IR”)，以缓解 baseline 的中继效应。MAUM 为每个 ID 学习两个特定模态的代理 (MS-Proxies)，如图1 (b)。RGB(IR) 代理只接收来自 RGB(IR) 特性的梯度，因此可以用来表示专用的模态。然后，冻结它们并使用 RGB 代理作为提取 IR 特征的静态引用，反之亦然。这两个单向指标促进了更好的跨模态关联。

其次，通过基于记忆的增强进一步加强了这两个单向指标。每次迭代之后，MAUM 将 IR 和 RGB 代理存储到各自的 memory bank 中。由于 MS-proxies 不断迭代更改 (即"漂移"现象)，每个 ID 在 memory bank 中都有多个不同的 IR 和 RGB 代理，如图1(b) 所示。一些历史的 MS-Proxies (比最新的 MS-Proxies) 离模态边界更加远，因此对对应模态特征具有更加强的 “拉近” 效应。总之，memory bank 通过难分正样本增强了 MAUM，从而促进了跨模态关联。作者指出，基于记忆的学习在 MAUM 中揭示了一个前所未知但重要的潜力。具体来说，作者使用 “漂移” 来增强参考。相比之下，之前的研究认为 “漂移” 会带来负面影响，并试图避免它。如图1(b) 所示，具有相同 ID 的特征分布紧凑，这表明模态差异被抑制了。例如如图1(a)，ID-116 的类内嵌入明显比 baseline 的更加紧凑。

除了能有效地减小模态差异外，提出的 MAUM 在模态不平衡情景下也具有特殊的优势。在训练数据中，由于人们在夜间活动较少，红外图像通常要比 RGB 图像稀缺，且红外图像更难标注。在 MAUM 中，单向度量和基于内存的增强都是基于特定模态的，IR 代理上的增强独立于 RGB 代理上的增强，反之亦然。因此，MAUM 可以重新平衡 IR 和 RGB 模态的增强。通过重新平衡增益，弥补了红外图像的不足，对模态不平衡问题具有较强的鲁棒性。

作者的主要贡献总结如下：

(1) 提出了一种新的记忆增强单向度量学习方法，用于跨模态 re-ID 问题。它在两个单向上学习显式的跨模态度量，并通过基于内存的增强进一步增强它们；

(2) 考虑了模态不平衡问题，这是跨模态 re-ID 中一个重要的现实问题。通过调整特定模态的增益，MAUM 对模态不平衡问题表现出较强的鲁棒性；

(3) 作者在模态平衡和模态不平衡两种情况下综合评估了他们的方法，实验结果表明，在两种情况下，MAUM 均能显著提高跨模态 re-ID 的性能，显著优于现有的方法。

2. 相关工作

2.1 跨模态度量学习

在异构人脸识别中首次研究了跨模态问题，这些早期的工作都使用模态无关的代理来加强类内的紧凑性。《Rgb-infrared cross-modality per-son re-identification》首先介绍了行人重识别中的跨模态问题，并逐渐引起了 re-ID 界的关注。和本文最接近的工作是《Cross-modality person re-identification via modality-aware collaborative ensemble learning》，与作者的方法类似，也使用特定模态的分类层，然而，两者之间又存在显著差异。他们使用特定模态分类器的集成来生成一个增强的教师模型，用于协作集成学习；而 MAUM 使用特定模态的分类器来学习特定于模态的代理，这些代理在收敛后是固定的，用于学习单向指标。

2.2 基于记忆的学习

Memory bank 在有监督、半监督和无监督中被广泛应用。在半监督学习中，使用 memory bank 来获得历史预测的时间集合，它加强了未标记样本的最新预测与时间集合之间的一致性。无监督学习的两个重要研究成果 ( MOCO 和监督度量学习 (XBM)) 在使用 memory bank 方面有着类似的动机。具体来说，MOCO 增加了存储的秘钥数量，以便于更加好地进行对比学习；XBM 通过存储历史的特征增强了难例挖掘的效果。它们都是通过增加负面特征从 memory bank 中获益。

在这种基于记忆的学习背景下，作者指出 MAUM 的新颖之处在于一种新的跨模态度量学习机制。在 MAUM 中，memory bank 的好处不是由于时间一致性 (如半监督学习) 或更多的负样本 (如 MOCO 和 XBM)。MAUM 受益于模型漂移，它有助于 MAUM 获得难分正样本参考，促进跨模态关联。此外，MAUM 将代理存储到 memory bank 中，这可以看作是对度量学习任务的一种新的模型扩展，而相比之下，之前的工作只是存储特征向量。

2.3 数据不平衡的学习

数据不平衡是深度学习的一个重要挑战。以往的研究大多关注类别不平衡问题，主要有两种解决方法，即 重采样 和 重加权。重采样是指在训练中对少数类 (样本少) 进行过采样，对高频类 (样本多) 进行少采样，目的是在每次迭代中平衡头尾数据。重加权是指为损失函数中的不同类甚至不同样本分配自适应权重。

论文注意到在跨模态任务中存在一个独特的数据不平衡问题，即 模态不平衡。模态不平衡是指一种模态比另一种模态包含更多样本的情况。在 MAUM 中，针对特定模态的增强是各自分离的，允许对特定模态进行独立的增强，这使 MAUM 对模态不平衡问题具有较强的鲁棒性。

3. 方法

3.1 MAUM

MAUM 的框架如图2 所示。MAUM 采用 ResNet50 作为 backbone，接受 RGB 和 IR 图像作为输入。MAUM 将第一个卷积块分成两个独立的分支，以适应特定模态的低级特征形式，一个用于 RGB，另一个用于 IR。为了计算效率，两种模态共享所有的卷积块。对于卷积特征映射，MAUM 使用全局平均池化 (GAP) 为每个输入图像生成深度嵌入。基于这种普遍采用的 backbone 设置，提出的 MAUM 着重于其新的记忆增强单向度量学习方法。

3.1.1 特定模态代理

MAUM 首先用两个特定模态( IR 和 RGB)的 ID 分类器补充了 baseline 中与模式无关的 ID 分类器，以促进单向度量，所有的三个 ID 分类器都使用各自的全连接层来实现。它们的区别在于：模态无关的 ID 分类器同时接受 RGB 和 IR 特征，而 IR (RGB) ID 分类器只接受 IR (RGB) 特征进行训练。相应的，IR 和 RGB 分类器学习两组特定模态的代理。考虑到 RGB 的特性，RGB 分类器采用广泛使用的交叉熵损失作为优化目标，其表达式如公式(1)。

在每个特定模态的分类器中，MS-Proxies 不再努力适应两个相反的模态，因此对其专用的模态具有高度代表性。

3.1.2 构建 memory bank

在完全训练特定模态的代理之后，MAUM 将它们收集到两个相应的 memory bank 中，并使用队列策略来更新 memory bank，当 memory bank 达到其大小限制后，将最新的代理进行入队，将最旧的代理进行出队。memory bank 对 MAUM 有三个关键的功能：(1) 它们冻结已经学习过的 MS-Proxies，并使用它们作为单向度量学习的静态参考；(2) 它们利用模型漂移现象累积历史的 MS-Proxies 来增强这些 MS-Proxies 的多样性；(3) 它们帮助 MAUM 获得额外的抵抗模态不平衡问题的鲁棒性，因为基于记忆的增强是针对特定模态的，所以可以独立调整以重新平衡 IR 和 RGB 模态。

3.1.3 学习单向度量

冻结 memory bank 里的MS-Proxies，然后用它们作为静态参考来拉近对应模态中的特征。作者注意到，尽管在特定模态的分类器中，每个 ID 只有一个 IR 和 RGB 代理，但将历史 MS-Proxies 存储到 memory bank 中仍会逐渐增加其数量。因此，在 RGB (IR) memory bank 中，每个标识都有多个 RGB (IR) 代理，为单个 IR (RGB) 特征提供多个正样本参考。受到 Circle Loss 的启发，作者将学习 RGB 图像到 IR 代理的单向度量的损失函数定义为公式(2)。

3.1.4 优化

作者将一个模态共享损失、两个特定模态损失和两个单向度量损失组合在一起，得到总体损失函数，如公式(3)。

其中 λ 是平衡单向度量损失贡献的超参数。

3.1.5 带有部件特征的 MAUM

部件特征通常能够改善可视re-ID 以及跨模态re-ID 的性能。为了验证 MAUM 与部件特征兼容，作者引入了一个基于部件特征的变体，即 MAUM^p。这个变体根据一个简单的部件特征 baseline，将最后一个卷积特征映射均匀地分成六个部件特征。在训练过程中，每个部件都有各自的监督。在测试过程中，将所有的六个部件特征串联起来，形成最终的表示。

3.2 模态不平衡场景下的 MAUM

在跨模态 re-ID 中，红外图像通常比 RGB 图像稀缺，从而产生模态不平衡问题，且红外图像更加难标注。当模态不平衡达到一个极限时，一些 ID 可能只有一个模态 (如只有 RGB)。咱们将这两种情况定义为：(1) Modality-imbalance scenario，每个 ID 都有两种形式，且红外图像比 RGB 图像少；(2) Modality-fragmentary scenario，有些 ID 只有一个模态，而其他 ID 有两个模态。

MAUM 是第一个考虑跨模态 re-ID 中的模态不平衡问题的工作。实验表明，模态不平衡问题显著降低了 re-ID 的精度。在 MAUM 中，由于增强是基于两个特定模态的 memory banks，它们之间的比例可以灵活调整，用以弥补红外图像样本的不足。因此，MAUM 对于模态不平衡问题具有较强的鲁棒性。

3.3 机制分析

这里分析了 MAUM 中基于记忆的增强机制。作者展示了 memory bank 中累积的代理漂移是增强单向度量学习的原因。

当我们在两个不同的训练迭代中观察相同 ID 的代理时，这两个观察结果自然是不同的。为了定量分析，作者将同一代理的两个观测值之间的差定义为代理漂移，如公式(4)。

图3(a) 显示了不同采样间隔下的漂移情况，可以看到：间隔越大，漂移越大。因此，在将代理存储到 memory bank 中时，MAUM 倾向于使用相对较大的采样间隔，以增加历史代理之间的多样性。

图3(b) 用 t-SNE 可视化了 memory bank 中代理的分布情况，由于代理漂移，历史代理分散在最新代理周围。一些历史代理远离模态边界，这就成为了在对应模态中拉近特征的难分正样本。它们促进了更强的跨模态关联，从而提高了跨模态 re-ID。

最近，XBM 在使用 memory bank 增强度量学习时也注意到了漂移现象，但它认为漂移是 memory bank 的副作用。因此，当漂移衰减到一个小范围后，XBM 才开始基于记忆进行学习。同样在 MOCO 中，在深度模型上应用指数移动平均运算来平滑历史键的漂移。相比之下，MAUM 与它们有着本质的不同。在 MAUM 中，利用漂移来增加历史代理的多样性，这有助于学习更加鲁棒的跨模态关联。这一发现与以往的研究相反，激发了人们对漂移现象和基于记忆的学习的新认知。

4. 实验

4.1 主要设置

Datasets 作者在两个公共的跨模态 re-ID 数据集上评估了本文的方法，即 SYSU-MM01 和 RegDB。SYSU-MM01是由 4 个 RGB 摄像头和 2 个红外摄像头在室内和室外环境中的 491 个 ID 组成。训练集中有 395 个 ID 的22258 张 RGB 图像和 11909 张 IR 图像。query 集中包含了 3803 张 IR 图像，而 gallery 集中包含了 301 张 RGB 图像。RegDB 的采集采用双摄像头系统，包括一个可见光摄像头和一个红外摄像头。总共有 412 个 ID，其中 206 个 ID 用于训练，另外 206 个 ID 用于测试。每个 ID 包含 10 张 RGB 图像和 10 张 IR 图像。

Evaluation metrics 所有实验均遵循标准的评价指标，即 CMC 和 mAP。所有的实验结果都是 10 次试验的平均值。

Implementation details 为了进行公平的比较，使用在 ImageNet上预训练的 ResNet50 作为backbone。对于 RGB 和 IR 图像，输入图像的大小调整为 288x114x3。具有全局特征的 MAUM 使用 2048 维向量表示特征，具有部件特征的 MAUM 使用 3072 维向量表示特征。训练 batchsize 设置为 64，由 8 个 ID 组成，每个 ID 有 4 张 RGB 图像和 4 张红外图像。

4.2 MAUM 的有效性

通过比较 baseline 和最先进的方法来评估 MAUM 的有效性。为了公平比较，将比较方法分为两组，即基于全局特征的方法和基于部件特征的方法，表1展示了在 RegDB 和 SYSU-MM01 上的结果。从中我们可以观察到两点：(1) 将 MAUM 于 baseline 进行比较，可以发现 MAUM 显著改善了 baseline；(2) MAUM 在全局特征和部件特征设置下都实现了具有竞争力的性能。

4.3 消融实验

作者通过消融实验研究了两个关键组件，即单向度量 (UM) 和基于记忆的增强 (MA)，实验结果如表2。

4.4 模态不平衡场景

作者研究了模态不平衡情况下的 MAUM。为了更加全面的研究，基于原始的 SYSU-MM01 数据集综合了几种不同的不平衡设置，实验结果如表3。

4.5 模态碎片场景

作者研究了模态碎片情景下的 MAUM，如有些训练 ID 只有单一模态。在原有 SYSU-MM01 的基础上，通过去除一些 ID 的红外图像，合成了多个模态碎片数据集，实验结果如表4。

5. 超参数分析

图4 实验分析了 memory bank 和 sampling interval 这两个超参数在 SYSU-MM01 上对效果的影响。

6. 总结

论文提出了一种用于跨模态 re-ID 的记忆增强单向度量学习方法 MAUM。MAUM有两个优点：(1) MAUM 没有使用模式无关的代理作为两个模态之间的中间中继，而是强制显式地与两个单向度量进行跨模态关联；(2) 通过探索模型漂移的潜力，MAUM 通过基于记忆增强进一步加强了跨模态关联。结合这两个优点，MAUM 显著抑制了模态差异，提高了跨模态 re-ID 的能力。还有另外一个贡献是，将模态不平衡问题引入到跨模态 re-ID 社区中，并证明了 MAUM 在该问题上具有较高的鲁棒性和优越性。

Limitation 在 MAUM 中，使用两个特定模态的 memory banks 来存储 MS-Proxies。虽然这些代理没有梯度，但存储和使用它们仍然需要一定的内存和计算开销。当训练集规模较大时，如工业数据集，其内存和计算开销是不可忽视的。如何优化内存和计算开销将是今后工作的重点。

7. 参考

[1] Learning Memory-Augmented Unidirectional Metrics for Cross-modality Person Re-identification.

[2] Rgb-infrared cross-modality per-son re-identification.

[3] Cross-modality person re-identification via modality-aware collaborative ensemble learning.

好了，以上解读了 MAUM 直面跨模态行人 re-ID。希望我的分享能对你的学习有一点帮助。

【极智视界】

《极智Paper | MAUM 直面跨模态行人 re-ID》

搜索关注我的微信公众号【极智视界】，获取我的更多经验分享，让我们用极致+极客的心态来迎接AI ！

以上是关于极智Paper | MAUM 直面跨模态行人re-ID的主要内容，如果未能解决你的问题，请参考以下文章