步态识别是一种极具吸引力的生物特征识别方法，旨在根据人走路的方式来识别人。步态识别已被广泛应用于影响分析 、 体育科学 、健康和 用户识别等应用领域。基于视觉的步态识别系统（以下仅称为步态识别）的性能可能会受到i）个人外观变化的影响，例如携带手提包/背包或穿着诸如帽子或外套等衣物；ii） 摄像机视角的变化 ；iii） 遮挡因素 ，例如，在某些视角（也称为自遮挡）中，受试者身体的一部分被物体部分覆盖，或者被受试者自身身体的一部分覆盖；iv） 环境的变化 ，例如复杂背景和高或低水平照明，使得分割和识别过程更加困难。

REVIEW METHODOLOGY

这部分在讲是如何筛选论文

TEST PROTOCOLS AND DATASETS

Protocols

步态识别解决方案的测试协议通常可分为受试者相关和 受试者无关 。如下图所示，在受试者相关协议中，训练集和测试集都包括来自所有受试者的样本。在受试者无关协议中，测试受试者与训练受试者是不相交的。在后一种协议下，测试数据被进一步分为注册集和 验证集 ，然后用在不相交的训练对象上学习到的模型来提取注册集和验证集的特征。最后，使用分类器将验证特征与注册特征进行比较，以识别最相似的步态模式，并将它们标记为来自相同的人。在步态识别中，受试者相关和受试者无关协议被广泛采用。例如，在小规模数据集中，经常使用受试者相关协议，在大规模数据集中，则使用受试者无关协议。文献中的步态识别结果都是使用rank-1识别精度进行测量和表示的。

Deep

Datasets

此部分为常用步态数据集介绍

PROPOSED TAXONOMY

文章通过四个维度（ 身体表示 、 时间表示 、特征表示和 神经架构 ）的分类法来更好地说明深度学习步态识别方法的技术前景。

Deep

Body Representation

身体表示方式主流有两种：轮廓图和骨架图

轮廓图：有效且方便地以较低的计算成本在单个帧中描述身体状态。迫使识别解决方案专注于“步态”。一系列轮廓可以表示有用的步态特征，如速度、步频、 腿部角度 、 步态周期时间 、步长、步幅以及 摆动和站立阶段之间的比率 。还可以对其进行处理以提取运动数据，例如光流图。

缺点是步态轮廓对个体外观的变化更为敏感，例如不同的服装和携带条件。

骨架图：可以从以骨架形式连接的身体关节中获得 静态和动态特征 ，例如步幅、速度、距离和关节之间的角度。由于考虑了关节位置，基于这种身体表征的步态识别方法通常对视角变化更稳健。基于骨架的方法对外观变化也更加稳健，因为姿势估计步骤通常会学习检测不同服装条件下的身体关节，而步态轮廓则不然。缺点是姿态估计方法严重依赖于身体关节的准确检测，使得对遮挡更敏感 。此外，姿态估计器的使用给这些识别系统带来了计算开销。

Temporal Representation

步态识别中的时间信息表示形式有两种：模板（template）和体积（volume）

模板将时间上的行走信息汇总到一张图中的一连串轮廓上，例如通过对至少一个步态周期的剪影进行平均。一旦模板图被创建，这种操作使识别方案不受帧数的影响。关于深度步态识别体系结构，步态轮廓可以聚合在网络的初始层（图a），也称为 时间模板 ，其中聚合的图可以由后续层处理。步态轮廓也可以 在几个卷积和池化层 （图b）之后 聚集在网络的中间层 ，也称为 卷积模板 。时间模板的例子包括：（i） 步态能量图 （GEI），它在一个时期/序列中平均步态轮廓（图 c）；(ii) 计时步态图像 (CGI) ，它提取每个步态图像中的轮廓，然后使用多通道映射函数以单个图的形式进行编码（图 d）；(iii) 帧差能量图 (FDEI)，使用聚类和去噪算法保留动力学信息，特别是当轮廓不完整时（图 e）；(iv) 步态熵图 (GEnI)，计算步态帧中每个像素的熵，然后在单个步态模板中进行平均（图 f）；(v) 周期能量图 (PEI)，GEI 的一种概括，它通过利用基于帧幅度的多通道映射函数来保留更多空间和时间信息（图 g）。卷积模板的例子包括 集合池化和步态卷积能量图 (GCEM) ，它们在整个序列上平均由几个卷积层和池化层获得的卷积图。

Deep

序列体积表示法：为了保存步态序列中帧的顺序和关系并从中学习，如下图所示

Deep

时间信息学习策略：

循环学习策略（例如循环神经网络）学习序列上的时间动态，其中每个帧都根据其与前一帧的关系进行处理。
首先从序列中可用的时空信息创建三维张量，其中张量的深度表示时间信息。然后学习这些张量，例如使用3D CNN或图卷积网络（GCN）。

Feature Representation

全局表征学习和局部表征学习

基于全局表征学习的方法往往对遮挡和外观变化以及缺少关键身体部位更为敏感。所以需要局部表征学习来弥补缺陷

局部区域往往对最终识别性能保持不同的贡献，因此了解它们的重要性可以提高步态识别方法的整体性能。此外，这些部分特征之间的关系可以被学习，从而保留了位置属性，如比例、旋转和位置，这提高了步态识别方法对方向和视角变化的鲁棒性。

而局部表征学习需要分块策略，例如切片、身体组成部分和垂直/水平切块，如下图所示

Deep

Neural Architectures

深度神经网络利用多种非线性变换的分层架构来捕捉高级抽象的特征。

Convolutional Neural Networks

卷积神经网络（CNN） 在步态识别中的应用最为广泛。卷积层将学习到的过滤器与输入图像进行卷积，以创建 激活特征图 ，捕捉具有不同程度的细节特征

Deep Belief Networks

略

Recurrent Neural Networks

在深度步态识别系统中使用RNN有三种不同的方法。第一种方法（图a）主要用于骨架表示，使用RNN从关节位置的时间关系中学习。在第二种方法（图 b）中，RNN 与其他类型的神经架构相结合，尤其是 CNN，用于学习空间和时间信息。最近在（图c）中采用的最后一种方法是使用RNN从单个步态模板（例如GCEM）反复学习局部表示之间的关系。

Deep

Deep AutoEncoders

深度自动编码器 (DAE) 是一种旨在使用编码器-解码器结构提取所谓的瓶颈特征或潜在空间表示的网络。编码器将输入数据转换为特征表示，解码器将表示转换回原始输入数据。DAE网络通常以最小化重构误差为目标进行训练，重构误差测量原始输入和重构版本之间的差异。

Generative Adversarial Networks

GANs可以用来保存身份信息，同时在称为域适应的过程中沿 低维流形传递步态变化 ，如姿势和服装。分离身份和步态变化 ，提高步态识别系统的性能。GANs还用来解决跨视角问题。

Capsule Networks

胶囊网络 (CapsNet) 已被提出来解决 CNN 中的两个重要缺点，即通过分别利用胶囊激活值和按协议路由算法，标量激活的限制和通过池化操作的不良信息路由。

在步态表示学习的背景下，CapsNet 可以使用可学习的姿势矩阵建模和理解受试者的多个视角之间的关系

3D Convolutional Neural Networks

3D CNN 能够提取对相机视角和受试者外观变化更稳健的特征

Graph Convolutional Networks

图卷积网络 (GCN) 以使用任意结构的图和图卷积滤波器将 CNN 扩展到更高维度的域。GCN 可以对步态序列中可用的结构信息和时间关系进行联合建模，以便学习关于相机视点和主体外观的判别性和鲁棒性特征。

Hybrid Networks

CNN+RNN将CNN与RNN（尤其是LSTM和GRU）结合起来学习空间编码后的时间关系可能是最流行的时空学习方法
DAE+GAN最近，DAE被认为是GANs中用于步态识别的生成器和/或鉴别器组件的主干。GaitGAN和GaitGANv2使用了两个具有编码器-解码器结构的鉴别器，分别用于假/真鉴别和识别。这两个鉴别器确保生成的步态图像真实，并且生成的图像包含身份信息。
DAE+RNNs首次使用具有新损失函数的深度编码器-解码器网络来分解步态特征，即来自外观的身份信息和主要包含用于步态识别的虚假信息的规范特征。然后，使用多层LSTM捕捉步态特征的时间动态，最终聚合用于识别。
RNNs+CapsNetsRNN 获得的循环学习特征可以被视为胶囊，从而通过动态路由学习这些胶囊之间的耦合权重。这种封装了循环学习特征之间的分层局部-整体关系，可以使混合网络对外观和视角变化更加鲁棒。

STATE-OF-THE-ART

Analysis and Trends

只提炼趋势

基于混合轮廓-骨骼身体表示的方法将在不久的将来广受欢迎。
鉴于最近一些高性能文献中频繁使用卷积模板 ，作者预计这些模板在未来将进一步普及并超过 时间模板 。
在识别关键步态特征的局部表示学习中具有很大的潜力。
预计在不久的将来，使用两种或更多类型 DNN 的混合方法会引起更多关注，并在该领域展示强大的性能。
作者期望在不久的将来，基于多重损失的深度步态识别方法将受到更多的关注，并超越其他方法。（交叉熵、三元组损失、softmax 损失、 arcface 、center loss和Euclidean loss）
CASIA-E将来成为步态识别的标准基准数据集

Performance Comparison

sota结果表明从神经结构和损失函数两方面揭示了混合方法的有效性

CHALLENGES AND FUTURE RESEARCH DIRECTIONS

Disentanglement

考虑采用新的生成模型和 损失函数 ，通过明确区分身份和非身份成分来学习更具判别力的步态表征。

人脸识别 、 动作识别 、情感识别和 姿态估计 领域，重点在于通过提取分解数据高维空间中各种解释因素的表示来学习 分解特征 。

Self-supervised Learning

利用自监督学习可以在不使用任何注释标签的情况下捕获通用和丰富的高级语义

在步态识别中使用自监督学习的一个重要挑战是设计有效的 预文本任务 ，以确保网络能够学习有意义的表示。此外，网络中多个预文本任务的联合学习，而不是单个 预文本任务 ，尤其是 使用多个损失函数 ，可以为网络提供更具代表性的特征。预计在不久的将来，这些挑战将在深度步态识别的背景下越来越流行。

Multi-task Learning

多任务学习通常用于使用共享模型同时学习多个任务，从而学习更广义且经常强化的表示。

大多数现有方法学习对身份敏感的特征，而不考虑与其他潜在因素的相互作用，如 情感状态 、性别和年龄。在这种情况下，同时学习多个步态识别任务可能会带来新的设计范式和优化挑战，特别是在任务识别和损失函数方面。期望这些挑战在不久的将来引起进一步的关注，并在多任务学习的步态识别背景下加以解决。

Data Synthesis and Domain Adaptation

例如，OU-ISIR 和 OU-MVLP 等大规模步态数据集仅提供正常的步行序列，在遮挡或携带和服装条件方面没有变化。因此，在测试阶段面对外观和环境的变化时，针对这些数据集训练的解决方案通常无法很好地概括。这里，域适配是这个问题的潜在补救措施，它可以修改现有数据集以包括所需的变化，从而消除收集新数据的必要性。

预计随着步态数据合成和领域适应技术的进步，将构建更多互补的步态数据集，以开发更稳健的解决方案。

Cross-Dataset Evaluation

跨数据集步态识别可能被表述为分布外(OOD) 测试问题，其中评估深度模型超出训练集偏差的泛化能力。预计OOD测试在评估步态识别方法的泛化能力方面越来越流行。

Multi-View Recognition

预计该领域未来的研究方向将通过提出新的方法来塑造，例如使用 聚类算法 、组合优化和 自监督学习 ，以采用通用步态描述符来描述 多视角几何 。

Multi-biometric Recognition

在多生物识别系统中，各种生物识别模式和步态可以 相互补充 ，以弥补彼此的弱点。除了互补（硬）生物特征外，还可以包括软生物特征，如年龄、身高、体重、性别和 特定身体标记 （包括纹身），以提高整体表现。其他软生物特征和硬生物特征与步态的结合大多在文献中基于非深度方法进行，同时也可以采用多模态深度学习方法，尤其是基于融合、联合学习和注意力的网络。因此，预计包括步态在内的深度多生物特征识别系统的研究将在未来几年内得到普及。

SUMMARY

本论文总结了这项调查，并讨论了当前面临的挑战，指出了这一领域未来一些 有希望的研究方向 。期望这项调查能够深入了解步态识别的技术前景，指导研究人员推进未来的研究。

以上是关于Deep Gait Recognition综述提炼的主要内容，如果未能解决你的问题，请参考以下文章