跨模态行人重识别:RGB-Infrared Cross-Modality Person Re-Identification 学习记录笔记
Posted 深度学不会习
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了跨模态行人重识别:RGB-Infrared Cross-Modality Person Re-Identification 学习记录笔记相关的知识,希望对你有一定的参考价值。
目录
2.3 Asymmetric FC layer structur
原文链接
论文链接:RGB-Infrared Cross-Modality Person Re-Identification
代码链接:code
摘要:
目前大多数Re-ID都是基于 RGB 图像。但是有时RGB 图像并不适用,例如在黑暗的环境或夜间。在许多视觉系统中,红外 (IR) 成像变得必不可少。为此,需要将 RGB 图像与红外图像进行匹配,这些图像是异构的,具有非常不同的视觉特征。
评估了现有流行的跨域模型,包括三种常用的神经网络结构(单流、双流和非对称 FC 层)并分析它们之间的关系。提出了深度零填充,用于训练单流网络,使其自动进化网络中特定领域的节点,以进行跨模态匹配。
1 介绍
由于大多数监控摄像机能够在黑暗中自动从RGB模式切换到IR模式。 分别在白天和夜间在两个室外场景中捕获的RGB图像和红外(IR)图像的示例。每两列中的图像都是同一个人的。由接收不同波长光的设备捕获,同一个人的RGB图像和红外图像看起来非常不同。
第一行的 RGB 图像具有三个包含可见光颜色信息的通道,而第三行的 IR 图像具有一个包含不可见光信息的通道。 因此,它们可以被视为异构数据。 其次,从成像原理来看,RGB和IR图像的波长范围不同。
1.1 数据集:
包括来自 6 个摄像头的 491 个身份的 RGB 和 IR 图像,总共提供 287,628 个 RGB 图像和 15,792 张红外图像。包括两个红外线摄像机和四个RGB摄像机,利用Kinect V1在两个明亮的室内(房间1和房间2)采集相机1和相机2的RGB图像。对于每个人,至少有400个具有不同姿态和视点的连续RGB帧。摄像机3和摄像机6的IR图像在黑暗中由IR摄像机捕获,摄像机3放置在暗环境中的房间2中,而摄像机6放置在具有背景杂波的室外通道中。摄像机4和5是放置在两个室外场景中的RGB监视摄像机。
SYSU-MM01 数据集中有 491 个有效 ID。 我们有一个固定的分割,使用 296 个身份进行训练,99 个身份用于验证,96 个身份用于测试。 在训练过程中,所有相机中训练集中的 296 人的所有图像都可以应用。RGB相机的样品用于gallery set,IR摄像机的样品用于probe set。
1.2 贡献
(1)首次提出了支持RGB-IR交叉模态Re-ID研究的标准基准SYSU - MM01。进行了大量的实验来评估跨模态RGB-IR Re-ID的流行的基线深度学习体系结构。 (2) 分析了三种不同的网络结构(单流结构、双流结构和非对称FC层结构),并分析了它们的有效性。 (3) 在RGB-IRRe-ID任务优化的单流网络中,提出了一种自动演化的域特定结构的深度零填充算法。
1.3 评估
对于RGB相机下的每个身份,我们随机选择一个/十个身份图像,以形成用于单张/多张设置的图库集。至于探针组,则使用所有图像。给定探测图像,通过计算探测图像和图库图像之间的相似性来进行匹配。在不同位置的摄像机之间进行匹配 ,相机2和相机3位于同一位置,因此相机3的探测图像跳过相机2的图库图像。
2 网络结构比较
2.1 One-stream Structure
有单一输入,所有参数在整个网络中共享。
2.2 Two-stream Structure
有两个输入,对应于两个不同域中的数据。在较浅的层中,网络的参数是针对每个域的。在较深的层中,使用共享参数。与单流结构相比,双流结构实现了两件事:领域自适应和区分性特征学习。假设特定领域的网络可以提取不同领域的共享特征,然后共享网络可以提取区分特征进行匹配。
领域自适应
源域(source domain)表示与测试样本不同的领域,但是有丰富的监督信息,目标域(target domain)表示测试样本所在的领域,无标签或者只有少量标签。源域和目标域往往属于同一类任务,但是分布不同。
三种不同的领域自适应方法:1)样本自适应,对源域样本进行加权重采样,从而逼近目标域的分布。2)特征层面自适应,将源域和目标域投影到公共特征子空间。3)模型层面自适应,对源域误差函数进行修改,考虑目标域的误差。
2.3 Asymmetric FC layer structur
该结构除最后一个FC层之外的几乎所有参数都共享。
3 网络结构
3.1 单流和双流结构的连接
假设1:一个域选择子网络存在于网络中的某个地方,它可以自动选择相应域的样本作为输入,并且域选择子网络是固定的。
在假设1下,我们首先给出了一个简单的例子,说明在前向传播中,单流网络可以作为双流网络。如图所示,左边是一个简化的双流网络:两个完全连接的网络,每个网络都有一个特定的层(蓝色和红色)和一个共享层(绿色)。
右边是单流网络,它可以有条件地等效于前向传播中的两个流,X其中有一个域选择子网络用于选择以下域特定结构。我们首先定义一些符号用于说X明。令Xd1 ∈ Rd和Xd2 ∈ Rd分别表示domain1和domain2的输入。我们将域指示符yind1定义为具有两个元素的向量,其值分别为 [1,0] T或 [0,1] T,表示域1或域2。令fsel(x,yind) 表示域选择子网络,实现以下功能:
上式表明,如果域选择子网络是固定的,那么在前向传播中,二流网络可以用一流网络来表示。
3.2 单流结构
我们希望上面的假设不太可行。现在,我们放弃这个假设,并分析单流网络的特定于域的属性。对于跨模态匹配任务,由于域移位,特定于域的建模对于提取共享组件进行匹配非常重要。通常,在神经网络中,例如双流和不对称FC层结构,这是由特定于域的结构建模的。因此,我们打算分析单流网络中的域特定建模。
在每一层中,蓝色节点表示域1特定的节点,红色节点表示域2特定的节点,绿色节点表示共享节点,虚线节点表示零值。
假设2:如图所示,对于处理两个域的输入的单流网络,我们将每层的输出节点分为三种类型:域1特定节点、域2特定节点和共享节点。分类取决于节点的响应是否特定于域。设x(l)d1和x(l)d2分别表示域1和域2的层l+1的输入。例如,x(0)d1和x(0)d2是整个网络的输入。设η(l)i表示层l中的第i个节点,fout(x(0),i,l)表示η(l)i与网络输入x(0)的输出,可以得到
节点 η(l) i 的类型定义为
定义了一些用于分析的符号。 令 L 表示损失函数。 令 o(l+1) i 表示第 l + 1 层激活函数之前第 i 个节点的 输出,,x (l) 表示层l+1的输入,w (l) ,b (l) i表示权重和偏置参数,即o (l+1) i =(w (l) i) T * x (l) +b (l) i。使用上述定义的分类,在不丧失通用性的情况下,X(l)可分解为三个parts1 x(l)=[x(l)1 spe;x (l) 2 spe;x(l)s]其中三个组件分别表示domain1特定节点、domain2特定节点和共享节点。我们还可以将w (l) i表示为w (l) i = [w (l),1 spe;W (l),2 spe;W (l),S] 。
对于domain1,第l+1层的输出是
对于domain2,第l+1层的输出是
在反向传播过程中,对于domain1中的网络X(0) d1的输入
通过以上分析,我们得出两个结论:(1)在前向传播中,如图所示,权重参数w(l)1spe i(蓝色连接)和w(l)2spe i(红色连接)仅对相应域的输入有影响,这与双流网络中的域特定参数相似。而对于w(l),si (绿色连接),它对两个域都有影响,这与双流网络中的共享参数相似。因此,网络可以通过域特定节点隐式地控制域特定结构,并通过共享节点控制共享结构。在后向传播中,如果节点是特定于domain2的,并且输入在domain1中,则其对应的权重参数将不会被更新,因为梯度是零。这意味着其他领域的训练样本不会影响隐含领域特定结构。
3.3 备注
备注1: 如果假设等式 (3) 定义的三种类型的节点存在于网络中,则单流网络可以隐式地学习和演化网络中的特定域和共享结构。
备注2: 考虑到双流结构和不对称FC层结构,它们是手动设计的,并且在训练过程中是固定的。而且,两个域的域特定结构是解耦的,而共享结构是完全相同的。相反,如果单流结构可以隐式学习该结构,则对应于不同域的隐式结构通过共享节点和共享偏置参数 (等式 (4) 和 (5)) 部分耦合,这可以为跨模态匹配任务的训练提供更多的灵活性。
4 深度零填充
4.1 网络输入分析
双流网络和非对称FC层网络的结构是手动设计的,并且在训练过程中是固定的,而单流网络可以通过学习特定领域的节点来隐式地进化网络结构,这可能会产生更优化的结构。 为此,我们建议使用零填充输入来刺激特定领域的响应。 对于来自两个域 xd1 ∈ Rd 和 xd2 ∈ Rd 的输入,应用零填充,如下所示
如果我们将网络输入视为先验层(或称为第 0 层),那么根据我们在等式(3)中的定义,这样的先验层中的所有节点都将明确归类为域特定节点。 我们发现使用零填充作为网络输入,网络节点更可能成为特定于域的节点。在这里,我们继续第3.2节中的分析,在将激活函数σ(·)应用于等式(4)和(5)之后,我们得到:
深度零填充只会使神经网络在网络中扩展特定于领域的节点时更灵活,而不会强制扩展。
4.2 RGB-IR深度零填充
RGB-IR跨模态识别中,一个通道对应于卷积神经网络FC层的一个节点。对于图像,在通道级别执行零填充。如图所示,RGB图像被转换为灰度图像并放置在第一个通道中,然后零填充图像被放置在第二个通道中。对于红外图像,它被放置在第二个通道中,零填充图像被放置在第一个通道中。
为了证明深度零填充的有效性,实验中可视化了ResNet-6的特征图,比较深零填充和原始单通道输入之间的差异。在下图中,我们计算了数据集上50个不同人员的平均特征图,并显示了第一和第二卷积层的所有16个特征图。如等式 (3) 中定义的,我们可以对边界框指示的特定于域的通道进行分类。显然,与单通道输入相比,深度零填充有助于学习更多的特定于域的通道。
具有深零填充和单通道输入的ResNet-6的第一和第二卷积层的特征图。在每一层中,第一行显示RGB输入的特征图,第二行显示IR输入的特征图。很明显,通过深零填充学习的左侧域特定通道比通过单通道输入学习的通道要多得多。
为了量化网络中特定领域的节点,我们计算每一层中特定领域节点的比例。 根据等式(3)设置小(严格)阈值和大(松散)阈值以确定节点是否是特定于域的。 域特定节点的比例与层深度的关系如下图所示。可以观察到,域特定节点主要出现在较浅的层中。 网络在第 6 层之后更喜欢共享结构是合理的。使用深度零填充有助于生成更多特定于域的节点,而在大多数层中,没有零填充的比例较低。 补充提供了有关两个域各自比例的详细信息。
域特定节点的比例与层深度的关系。x轴表示从网络底部到顶部的层深度,y轴表示域特定节点的比例。严格阈值T=0.01 std (x (l) i),松散阈值T=0.05 std (x (l) i), (std (x (l) i) 是第i层节点输出的标准差)。一般而言,使用深度零填充的域特定节点的比例高于不使用零填充的域特定节点的比例。
通过深度零填充,网络可以更容易地学习特定于域的节点,并获得更好的性能。
5 实验
在 SYSU-MM01 数据集进行试验。
5.1 模型比较
深度模型。评估了四个深度模型,包括一流网络、双流网络、非对称FC层网络和建议的深度零填充方法(网络结构与一流网络相同)。在 ResNet [9] 中应用了残差块作为所有四种结构的基础卷积块。每个块的过滤器数量分别为 16、16、64、128、256 和 512。下一层是用作特征的 256 维的 FC 层。对于这四个网络,损失函数是和ResNet[9]一样的softmax loss,比较常用,比较稳定。所有的超参数都保持不变。对于前三个网络的输入,将图像转换为单通道灰度图像,并将尺寸调整为224×224。
5.2 模型分析
所有基线模型,即具有跨域度量学习方法的手工特征,都表现不佳:即使是最佳情况的 rank-1 准确率也未能达到 10%。LOMO 特征包含丰富的颜色信息,在 RGB-RGB Re-ID 问题中表现非常出色。因此结果表明,在 RGB-IR 匹配中,由于不同的成像原理,颜色的辨别力大大降低。尽管身体形状和衣服纹理可用于识别人,但低级特征对于 RGBIR 跨模态行人 Re-ID 问题的判别力不够。然而,对于深度模型,室内搜索的最佳 rank-1 准确率可以达到 20.58%。
可以看到深度零填充优于双流网络和非对称 FC 层结构。 以单次设置下的全搜索模式下的rank-1准确率为例,深度零填充与双流/非对称FC层之间的差距为3.15%/5.50%。
单流网络可以在存在域指示符的情况下作为两流网络工作。因此,我们将两个额外的通道填充到输入图像中,作为域指示器。对于RGB图像,第一通道用等于255的所有像素填充,第二通道用0填充,而对于IR图像,第一通道用0填充,第二通道用255填充。此填充过程向网络明确提供了域指示符, 提出的深度零填充方法达到了最佳性能。具有域指示符的输入仅实现与原始单流网络性能相似的性能。性能比较如表所示:
以上是关于跨模态行人重识别:RGB-Infrared Cross-Modality Person Re-Identification 学习记录笔记的主要内容,如果未能解决你的问题,请参考以下文章
yolov5_reid附代码,行人重识别,可做跨视频人员检测
CVPR2021 行人重识别/Person Re-identification 论文+开源代码汇总