(ICCV-2021)用于步态识别的3D局部卷积神经网络
Posted wx5cbd4315aefc1
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了(ICCV-2021)用于步态识别的3D局部卷积神经网络相关的知识,希望对你有一定的参考价值。
文章目录
用于步态识别的3D局部卷积神经网络
论文题目:3D Local Convolutional Neural Networks for Gait Recognition
paper是中国科学技术大学发表在ICCV 2021的工作
论文地址:地址
Abstract
步态识别的目标是从人体的时间变化特征中学习关于人体形状的独特时空模式。由于不同的身体部位在行走过程中表现不同,因此可以直观地分别对每个部位的时空模式进行建模。然而,现有的基于部位的方法将每一帧的特征图平均划分为固定的水平条带以获得局部部位。显然,这些基于条带划分的方法无法准确定位身体部位。第一,不同的身体部位可能出现在同一条条带上
(例如手臂和躯干),而一个部位可能出现在不同帧的不同条纹上
(例如手)。第二,不同的身体部位拥有不同的尺度
,甚至同一部位在不同的帧中也会有不同的位置和尺度
。第三,不同的部位还表现出不同的运动模式
(例如,运动从哪一帧开始,位置变化频率,持续多长时间)。为了克服这些问题,本文提出了一种新的3D局部操作
,作为3D步态识别主干中的通用构建模块系列。这个3D局部操作支持在序列中提取具有自适应空间和时间尺度、位置和长度
的身体部位的局部3D体积(volume)。这样一来,身体部位的时空模式就能很好地从3D局部邻域的特定部位
尺度、位置、频率和长度中学习到。实验表明,本文的3D局部卷积神经网络在流行步态数据集上实现了最先进的性能。代码可从以下网址获取:地址
1. Introduction
步态是最重要和最有效的生物特征模式之一,因为它可以在远离摄像机的情况下进行身份验证,而无需受试者(subject)的配合。步态识别在犯罪预防、法医鉴定和社会安全保障方面有着广泛的应用。在现实场景中,除了步行运动引起的体型变化之外,背包、穿大衣、相机视角切换等变化也会导致身体外观的剧烈变化,从而给步态识别带来了巨大的挑战。步态识别的基本目标是从人体形状的时间变化特征中学习独特和不变的表示。步态识别的早期工作集中于使用卷积神经网络(CNN)提取全局特征。GaitNet提出了一种自动编码器框架,从原始RGB图像中提取步态相关特征,然后使用LSTM对步态序列的时间变化进行建模。Thomas等人直接应用3DCNN来提取序列信息,使用一个在自然图像分类任务上预训练的模型。然而,全局特征不考虑身体形状的空间结构和局部细节,因此在面对视角变化时没有足够的判别力。一个自然的选择是学习详细的基于身体部位的局部特征,作为对全局特征的补充,或者学习它们两者的特征嵌入。
由于人体由定义明确的部位组成,即头部、手臂、腿部和躯干,基于部位的模型有可能解决步态识别中的变化。以前的基于部位的模型通过将特征图等分成固定的水平条来提取局部特征。在GaitPart中,首先通过对每个输入帧的输出CNN特征图应用预先定义的水平分割来提取2D外观特征。然后,来自所有帧的同一条带的相应特征通过局部短距离 2D 部位特征的时间串联聚合。在 GaitSet和GLN中,首先将最后一个 2D 卷积的帧级特征图分割成均匀的条带,然后沿集合维度对其应用最大池化以提取集合级部位特征。在 MT3D中,使用多个时间尺度3D CNN来探索序列中的时间关系。然后,输出特征图也被划分为多个条带。然而,这些基于部位的步态识别方法忽略了两个问题。首先,人体的不同部位有不同的尺度,甚至同一个部位在不同的帧中也可能有不同的位置和尺度。其次,不同的部位表现出不同的运动模式,例如运动从哪一帧开始、位置变化的频率以及持续多长时间。因此,在一个步态周期,视觉外观和时间运动变化是相互依赖的,人体不同的部位的特征也各不相同。这表明步态识别模型应该支持对每个特定人体部位的自适应 3D 局部体积
的提取和处理。
为了克服步态识别中的上述问题,本文提出了一种新的3D局部操作
,作为3D步态识别主干中的通用构建模块系列。这个3D局部操作支持在序列中提取具有自适应空间和时间尺度、位置和长度
的身体部位的局部3D体积(volume)。这样,不同身体部位的3D局部邻域在特定的部位尺度、位置和运动位置、频率、长度上进行处理,如图1所示。2D 局部操作已经被证明在图像识别中是有效的,其中利用可微分的 2D 注意力机制来产生位置和尺度平滑变化的 2D 图像/特征块。然而,由于时间注视(temporal foveation)的不同机制,将这个想法应用于 3D 局部操作是非常具有挑战性的。原因有两方面。1)像素的空间采样遵循人眼的焦点,而帧的时间采样则是遵循光流的分布。2) 空间采样处理2D切片,时间采样处理1D序列,时空采样处理3D视频体积。因此,需要一种新的2D和1D联合采样策略。
图1.主干CNN中的块。所有这些块都从局部邻域提取特征。在C2D和C3D中,局部邻域是固定的2D切片()或3D体积()。非局部网络学习所有位置()的自适应长距离依赖。本文的3D局部CNN旨在为多个局部路径定位自适应3D体积,而不是固定的局部邻域,并提取相应的局部特征。
局部操作包括4个模块:定位、采样、特征提取和融合。定位模块用于学习头部、躯干、左臂、右臂、左腿和右腿六个身体部位的自适应时空尺度、位置和时间长度。采样模块对平稳变化的位置、尺度和时间长度的局部体积进行采样。与一般卷积块一样,特征提取模块由几个卷积和ReLU层组成。融合模块由全局和局部输出的级联层形成
,后跟卷积层。在实践中,现有3D主干CNN的任何构建块都可以被视为全局路径,并且提出的局部路径可以很容易地插入到这些块中,而无需改变训练方案。此外,对于不同的配置,局部操作中每个组件的体系结构都非常灵活。
这项工作的主要贡献总结如下:
- 与C3D、P3D和非局部网络相比,作者为主干3D CNN设计了一个新的构建块,它包含人体特定部位的序列信息,称为3D局部卷积神经网络。
- 实现了一种简单但有效的3D局部CNN,用于步态识别。该模型在两个最流行的数据集 CASIA-B 和 OU-MVLP 上优于最先进的步态识别方法。
- 据作者所知,他们是第一个提出这个框架的人,该框架能够在任何3DCNN层中交互/增强全局和局部3D体积信息。
2. Related Works
Gait Recognition. 许多关于步态识别的研究都集中在空间特征提取和时间建模。为了获得空间表示,大多数基于CNN的研究在整个特征图上沿空间维度采用常规2D或3D卷积运算
。虽然对所有特征图进行同等扫描是很自然的,但这些方法忽略了步态任务中人体部位之间的显著差异
。GaitSet、GaitPart、GLN、MT3D都试图通过将主干的输出特征图平均水平分割为m条带来获得部位级空间特征。然而,对于明确定义的人体部位,它既没有灵活性也没有细粒度性。此外,为了获得步态序列的时空表征,许多研究直接将整个序列压缩为一帧,或者从每个轮廓中独立提取帧级特征,并使用Max Pooling沿时间维度简单地聚合帧级特征
。从而忽略了连续帧之间的时间相关性。另一种方法使用LSTM明确捕捉时间变化,在时间序列中聚合姿势特征,生成最终步态特征,这种方法保留了周期步态序列不必要的顺序约束
。所有这些方法都分别提取空间特征和时间特征,忽略了不同帧的不同位置的时空依赖性,这对于识别人类步态的时空运动模式至关重要。
Local-based model. 基于局部的模型已经在许多视觉任务中得到了应用。在细粒度图像分类中,许多工作已经自动定位了信息区域
,以捕获细微的区分细节,从而使从属类彼此不同。Sun等人利用多通道注意力来学习几个相关区域。Wang等人使用一组卷积滤波器来捕获特征图中的判别性区域。Zheng等人提出了三线性注意力采样网络来从不同的细节中学习特征。
在行人重识别领域,Li等人将第一卷积层的输出特征图横向平均分成m个局部区域,并分别学习局部/全局特征。Cheng等人将低层特征图(ICCV-2021)用于步态识别的上下文敏感时间特征学习