(ICCV-2021)用于步态识别的上下文敏感时间特征学习
Posted wx5cbd4315aefc1
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了(ICCV-2021)用于步态识别的上下文敏感时间特征学习相关的知识,希望对你有一定的参考价值。
用于步态识别的上下文敏感时间特征学习
论文题目:Context-Sensitive Temporal Feature Learning for Gait Recognition
paper是华中科技大学发表在ICCV 2021的工作
论文地址:链接
Abstract
最近,尽管步态识别引起了越来越多的研究者关注,但由于轮廓差异在空间域中非常微妙,因此学习判别性的时间表示仍然具有挑战性。人类可以自适应地关注不同时间尺度的时间序列来区分不同目标的步态,受此启发,本文提出了一个上下文敏感的时间特征学习(CSTL)网络,该网络将三个尺度的时间特征聚合在一起,根据时间背景信息获得运动表示。具体来说,CSTL 引入了多尺度特征之间的关系
建模来评估特征的重要性,在此基础上,网络自适应地增强了更重要的尺度并抑制了不太重要的尺度
。除此之外,还提出了一个显著的空间特征学习(SSFL)模块来解决由时间操作(例如时间卷积)引起的错位问题。SSFL通过提取整个序列中最具判别性的部分来重新组合显著空间特征的框架。通过这种方式,同时实现了自适应的时间学习和显著的空间挖掘。在两个数据集上进行的大量实验证明了本方法达到了最先进的性能。在CASIA-B数据集上,在正常步行、提包和穿着外套的条件下达到了 98.0%、95.4% 和 87.0% 的 rank-1 准确率。在OU-MVLP数据集上,达到了 90.2% 的 rank-1 准确率。源代码将发布在:链接。
Introduction
步态识别是一种远距离的生物识别技术,它依赖于人的行走模式,在身份识别上有着巨大的应用潜力。最近,尽管步态识别引起了越来越多的研究者关注,但由于空间域中的轮廓差异非常微妙,因此学习判别性的时间表示仍然具有挑战性。
此外,正如在[6]中提到的,身体部位拥有不同的运动模式
,这需要时间建模来考虑多尺度的表现。多层时间卷积已广泛用于当前方法以对多尺度的时间信息进行建模。它们以求和或级联的方式聚合多尺度时间特征。然而,由于多尺度特征的融合方法是固定的,因此这些方式不够灵活,无法适应复杂运动和现实因素的变化
,即服装的遮挡和相机视角的变化。因此,考虑到步态是一种细粒度的运动模式,对目标的识别取决于局部身体微小运动的多样化表达
,所以影响了步态识别的性能。
从生活经验可以看出,人类自适应地聚焦于具有不同时间尺度的时间片段来区分不同受试者的步态序列。图1给出了一个定性的说明,七个志愿者的投票结果被用来计算焦点分布。在图1(a)中,两个步态序列之间的差异是如此明显,以至于可以通过观察从开始的几帧
来区分它们。相反,在图 1(b) 中,两个序列之间的差异非常微小,必须观察更多的帧
来区分它们。因此,在这种情况下,短期的线索不足以区分这两个目标。需要考虑长期特征,因为它们提供了更丰富的时间信息。因此,多尺度时间特征之间的自适应调整
导致了沿着时间维度的灵活聚焦
,这为步态建模提供了一个新的视角。
(a) CASIA-B 上的目标“53”和“119”的两个序列可以依靠短期时间线索来区分,例如开始时的几帧。
(b) CASIA-B 上目标‘39’和‘77’的两个序列,必须依靠长期的时间线索来区分,例如,所有帧。
图1. 说明人类可以自适应地聚焦于不同时间尺度的时间片段来区分不同目标的步态。色条表示人类的注意力分布。颜色越深代表相应的帧需要更多的注意力。最好以彩色观看。
受这种观察的启发,提出了一种用于步态识别的上下文敏感时间特征学习(CSTL)网络。该方法的核心思想是根据上下文信息沿时间维度整合多尺度时间特征
,实现不同尺度之间的信息交流。这里,上下文信息是通过评估多尺度时间特征之间的关系来获得的,它反映了上下文特征中存在的各种运动信息。CSTL在三个时间尺度上产生时间特征,即帧级、短期和长期时间特征,它们相互补充。帧级特征在每个时刻都保留帧特征。短期特征捕获局部时间上下文线索,这些线索对时间位置敏感,有利于模拟微运动模式。长期特征代表所有帧的运动特征,揭示了不同身体部位的全局运动周期性,这些周期性对于时间位置是不变的。然后,这些时间特征之间的关系建模引导网络自适应地增强或抑制不同尺度的时间特征,然后为不同身体部位的运动学习生成适当的时间描述。这种方法提供了对复杂运动进行建模的可能性,这使得它非常适用于步态识别。
此外,在时间建模的研究过程中,时间建模中的错位问题尚未在步态识别中进行研究。如图2所示,不同帧中的相同像素位置可能对应于不同的前景和背景
。自然地,使用时间操作,例如时间卷积和时间池化,可能会导致模糊和重叠的外观。为了解决这个问题,提出了一个显著空间特征学习(SSFL)模块来选择整个序列中的判别空间线索,这被认为是弥补外观特征损坏的补充
。
图 2. 由时间卷积引起的错位问题的说明,因为不同帧中相同空间位置的像素可能对应不同的语义内容。
自适应时间建模和显著空间学习为彼此互补。一方面,CSTL 主要考虑时间建模,SSFL 侧重于空间学习。具体来说,CSTL生成描述运动模式的多尺度线索的时间聚合
,SSFL生成涉及静止图像的重组帧特征
。另一方面,CSTL以软注意力方式聚合时间线索,SSFL以硬注意力方式选择显著的空间特征。总之,通过同时研究运动学习和空间挖掘,本文在现有方法上取得了出色的表现。
本文的主要贡献可以概括为以下三个方面:
- 本文提出了一种时间建模网络CSTL,以自适应方式融合多尺度时间特征,该网络将跨尺度上下文信息作为时间聚合的指导。
- 提出了一个显着的空间特征学习(SSFL)模块来解决由时间操作引起的错位问题。 SSFL 从不同的帧中提取显着的空间特征,形成一个保持高质量空间特征的重组帧。
- 在两个流行的数据集CASIA-B和 OU-MVLP上进行的大量实验证明了本文方法的最新性能。进一步的消融实验证明了所提出模块的有效性。
Related Work
Gait Recognition. 目前的步态识别方法可以分为两类:基于模型的和基于外观的。基于模型的模型被提出来,根据提取的姿势信息对人类的行走模式和身体结构进行建模。基于模型的方法对服装和相机视角的变化具有鲁棒性。然而,由于低质量图像的关键点估计结果不准确,以及身份相关的形状信息的缺失,基于模型的方法在性能比较中通常不如基于外观的方法。基于外观的模型通过CNN网络或手工算法在RGB图像或二进制轮廓图上提取时空特征。通过时间平均池化生成步态能量图(GEI)的方法,大大降低了计算成本,但失去了判别性表达。逐帧处理步态序列的方法,在很大程度上保持了帧级的判别特征。本文的方法属于基于外观的方法,以轮廓序列作为输入。
Temporal Modeling. 目前的文献提出了不同的步态时间建模策略,包括 1D 卷积、LSTM 和 3D 卷积。GaitSet和GLN将步态序列视为无序集合,主要关注空间建模,而忽略了帧间依赖建模
。GaitPart和Wu等人通过一维卷积提取局部时间线索,并以求和或串联的方式聚合它们。LSTM网络用来实现长短时间建模,通过时间积累来融合时间线索。在堆叠的三维块的帮助下,MT3D纳入了具有小尺度和大尺度的时间信息
,然后将这些特征串联起来作为输出。综上所述,当前方法在学习灵活且鲁棒的多尺度时间特征方面存在明显的不足,无法满足步态运动的时间建模要求。
与上述方法相比,本文中的CSFL在三个尺度上利用时间特征:帧级时间特征、短期时间特征和长期时间特征。如此丰富的时间线索使我们的网络能够获得多样化的运动学习能力。并通过对多尺度时间线索的跨尺度关系建模,调整特征表达以强调沿时间维度的不同帧,然后以加权求和的方式产生适当的序列级运动表示。
Spatial Preserving. 与时间建模相关的一个问题是空间错位,这可能会严重降低与人相关的识别任务的性能,例如行人重识别。在基于视频的行人重新识别中,提出了不同的方法来保持空间特征的清晰度
。在AP3D中,研究人员提出了外观保持模块(APM)来缓解时间建模中的错位问题。APM 使用特征相似度计算策略,根据颜色、纹理和照明等,在局部窗口内匹配连续帧中的前景。Chen等人提出了一种称为对抗特征增强(AFA)的方法,以通过对抗形式捕获运动连贯性。
与这些策略不同,在本文的方法中,SSFL 选择判别性的空间局部特征来保持目标的空间特征,这对于二进制输入是可行的。并且该操作与时间建模过程并行,因此不会影响时间特征提取。
参考文献
[6] Chao Fan, Yunjie Peng, Chunshui Cao, Xu Liu, Saihui Hou, Jiannan Chi, Yongzhen Huang, Qing Li, and Zhiqiang He. Gaitpart: Temporal part-based model for gait recognition. CVPR, pages 14225–14233, 2020. 1, 3, 4, 6, 7
以上是关于(ICCV-2021)用于步态识别的上下文敏感时间特征学习的主要内容,如果未能解决你的问题,请参考以下文章
(ICCV-2021)通过有效的全局-局部特征表示和局部时间聚合进行步态识别