深度步态识别综述
Posted wx5cbd4315aefc1
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度步态识别综述相关的知识,希望对你有一定的参考价值。
文章目录
- Disentanglement
- Self-supervised Learning
- Multi-task Learning
- Data Synthesis and Domain Adaptation
- Cross-Dataset Evaluation
- Multi-View Recognition
- Multi-biometric Recognition
Gait Recognition(三)
STATE-OF-THE-ART
在本节中,使用本文提出的分类法来调查文献中可用的深度步态识别方法。表3总结了可用的深度步态识别方法的主要特征,并根据其发布日期进行了分类。此表根据与提议的分类法相关联的维度对可用解决方案进行分类。该表还包括用于训练的方法的损失函数以及用于性能评估的数据集。为了更好地分析表 3 中提供的方法,在图 7 中对它们进行了可视化,其中每个条目代表一种根据本文的分类法的三个级别以及出版年份和月份进行分类的方法。为了更好的可读性,排除了此图中的身体表征维度。有关时间表示、特征表示和发布日期的信息分别显示在 x、y 和 z 轴上。最后,每条垂直线的颜色和标记符号代表神经结构。
Analysis and Trends
基于表3和图7的分析能够得出一些有趣的结论,这些结论与本文提出的分类法有关,涉及深度步态识别技术的最新发展和趋势。以下是分析得出的主要观点。
Body Representation 轮廓是深度步态识别中最广泛采用的身体表示,对应于文献中超过 81% 的解决方案。与轮廓相比,骨架的使用频率较低,仅占可用解决方案的13%。还有一些方法,即大约 5% 的可用文献,利用骨架和轮廓表示,特别是使用分解表示学习或融合策略。基于本文的分析,高性能的步态识别方法都采用了轮廓身体表示。尽管如此,由于最近有效的姿态估计技术的进步,能够从视频中提取准确而健壮的骨骼数据,预计基于混合轮廓-骨骼身体表示的方法将在不久的将来广受欢迎。
Temporal Representation 步态模板一直是在步态序列中捕获时间信息的最被考虑的表示,对应于所提出的深度方法的70%。在不同类型的步态模板中,GEI和集合池化使用得最多。大约30%的解决方案采用序列体积来保持可用步态帧的顺序,并从它们之间的关系中学习。鉴于最近一些高性能文献中频繁使用卷积模板,作者预计这些模板在未来将进一步普及并超过时间模板。
Feature Representation 分析表明,超过87%的可用方法基于全局特征表示,其中深度特征是通过考虑步态信息作为一个整体来学习的。最近,许多有趣且高性能的方法通过将步态数据分割为局部区域来采用局部表示。这些技术的性能表明,在识别关键步态特征的局部表示学习中具有很大的潜力。因此,期待在这一领域进行进一步的研究,并取得令人信服的结果。
Neural Architectures 如图 8 所示,2D CNN 是最广泛使用的深度步态识别 DNN 类型,48% 的已发布解决方案仅使用 2D CNN 架构进行分类。3D CNNs 和 GANs 是下一个流行的类别,每个类别对应 8% 的文献。DNN中较少考虑DAE、RNN、CAPSNET、DBN和GCN,分别对应于4%、2%、2%、1%和1%的方法。关于占已发布解决方案26%的混合方法,CNN-RNN组合是最广泛采用的方法,占16%的份额,而DAE与GANs和RNN的组合对应于8%的方法,其次是RNN CapsNet方法,占解决方案的2%。预计在不久的将来,使用两种或更多类型 DNN 的混合方法会引起更多关注,并在该领域展示强大的性能。
Loss Functions 损失函数在训练期间计算模型的误差,理想情况下应设计为有效捕获问题的属性,以促进训练过程的有效性。图8显示了深度步态识别文献中使用的不同已知损失函数的使用频率。在单损失函数中,交叉熵被最广泛地采用,20%的解决方案使用了交叉熵。该损失函数采用预测类的输出概率,并使模型输出尽可能接近真实输出。三元组损失是下一种流行类型,使用频率为17%。一些最新和最先进的解决方案都使用了这种损失。此损失函数将基线输入(也称为锚点)与具有相同身份的正样本和具有不同身份的负样本进行比较。三元组损失函数确保属于同一受试者的两个特征向量之间的相似度低于属于两个不同受试者的特征向量之间的相似度。对比损失对应于 7% 的识别方法,并使用包括锚邻居或锚距离的样本对。如果样本对是固定的,则损失函数使其距离最小化;否则,它会增加它们之间的距离。下一个流行的损失函数,对应于 6% 的识别方法,基于softmax 损失。还有一些其他损失函数,如arcface、center loss和Euclidean loss,其组合使用频率为9%,在步态识别中考虑较少。最后,有两类深步态识别方法使用多个损失函数(使用频率为41%),包括(i)将两个或多个损失函数相加以相互补充并弥补其弱点的方法
,如[33]、[82];以及(ii)基于具有多个组件的网络设计的方法,例如具有生成器和鉴别器的GAN和混合网络,其中使用了不同的损失函数来训练不同的组件
。作者期望在不久的将来,基于多重损失的深度步态识别方法将受到更多的关注,并超越其他方法。
Datasets 本文统计了每个数据集被已发表文献使用的次数,结果如图8所示。图8不包括表3中出现次数少于3次的数据集。此外,要考虑的一点是,许多文献使用一个以上的数据集来进行实验。观察到CASIA-B是使用最广泛的数据集
,出现在 80% 的已发表文献中,因为它提供了大量携带和穿着条件不同的样本。OU-ISIR是2018年之前最大的步态数据集;因此,发现OU-ISIR是第二大最受欢迎的数据集,40%的解决方案使用了该数据集。自2018年引入OU-MVLP以来,该数据集一直受到社区的高度关注,在短短2年的时间内,18%的方法使用了该数据集。OU-ISIR LP Bag 数据集仅包含携带物体的步态数据,因此自然仅在为特定应用设计解决方案时才考虑它,例如那些旨在从单一角度对携带条件保持不变的应用。因此,只有5%的方法将该数据集用于评估。TUM GAID也较少被研究团体考虑,对应已发表文献的 5%。最后,2020年提出的CASIA-E是第六种最广泛使用的,出现在4%的文献中。然而,作者预计该数据集将在不久的将来成为步态识别的标准基准数据集
,因为它为每个对象提供数百个视频序列,在外观和采集环境方面具有很大差异。
Performance Comparison
为了进一步了解深度步态识别方法的性能,本文总结了在三个最流行的步态数据集上测试的方法的性能,即CASIA-B、OUISIR和OU-MVLP数据集,分别见表4、表5和表6。为了进行公平的比较,这些表格仅包含遵循为这些数据集设计的标准测试协议的方法,如第 3.2 节所述。结果表明,在[35]中提出的方法目前对CASIA-B(平均性能结果为90.4%)和OU-ISIR(性能结果为99.9%)的识别效果最好。关于OU-MVLP数据集,结果表明[33]中提出的方法(性能结果为89.18%)优于其他方法。除[35]和[33]外,还有其它几种方法,包括[31]、[32]、[34]、[83]、[115]、[143]中提出的方法,其性能接近这些数据集的最先进水平。分析表明,其中一些性能最好的方法,包括[31]、[34]、[83]、[115],使用两种或两种以上类型的神经结构来提高性能。其它一些方法,包括[32]、[33]、[35]、[143]使用多个损失函数相互补充,并弥补其不足,以提高性能。该分析从神经结构和损失函数两方面揭示了混合方法的有效性
,以达到该领域的强大性能。
CHALLENGES AND FUTURE RESEARCH DIRECTIONS
尽管使用深度学习技术进行步态识别取得了巨大成功,但该领域仍存在大量需要解决的挑战。在此,进一步指出了该领域未来的研究方向和有待解决的问题
。这些方向可能有助于未来的研究活动并促进实际应用。
Disentanglement
复杂的步态数据产生于许多因素之间的相互作用,如遮挡、摄像机视角、个体外观、序列顺序、身体部位运动或数据中存在的光源。这些因素可能以复杂的方式相互作用,从而使识别任务复杂化。最近在其他研究领域有越来越多的方法,如人脸识别、动作识别、情感识别和姿态估计,重点在于通过提取分解数据高维空间
中各种解释因素的表示来学习分解特征。然而,现有的大多数深度步态识别方法尚未探索分解方法,因此无法明确地以有意义的不相交变量的形式分离步态数据的底层结构。尽管最近在一些步态识别方法中使用分解方法取得了进展,但仍有改进的余地。为了促进这一领域的进一步进展,可以考虑采用新的生成模型和损失函数,通过明确区分身份和非身份成分来学习更具判别力的步态表征。
Self-supervised Learning
大部分可用的深度步态识别方法遵循监督学习范式,因此在训练期间需要标记数据。然而,在现实世界的应用中,标签数据可能并不总是容易获得,而且打标签通常是昂贵且耗时的。为了利用未标记的步态数据学习更有效和更普遍的步态表示,可以利用自监督学习。在这种情况下,可以在不使用任何注释标签的情况下捕获通用和丰富的高级语义。自监督方法可以定义各种预文本任务,例如身体部位运动或输入序列的序列顺序识别,都可以由网络解决。通过学习这些预文本任务,网络可以学习一般特征。然后,使用生成的预文本标签训练的网络可以与实际标签进行微调,以便识别身份。在自监督方法中,对比学习方法,包括SimCLR,是一种很有前途的方法,通过在特征空间中定义锚和正样本来学习表示,然后使锚与负样本分离。在步态识别中使用自监督学习的一个重要挑战是设计有效的预文本任务,以确保网络能够学习有意义的表示。此外,网络中多个预文本任务的联合学习,而不是单个预文本任务,尤其是使用多个损失函数,可以为网络提供更具代表性的特征。预计在不久的将来,这些挑战将在深度步态识别的背景下越来越流行。
Multi-task Learning
多任务学习通常用于使用共享模型同时学习多个任务,从而学习更广义且经常强化的表示。在许多情况下,这些方法具有以下优点:提高收敛速度,利用辅助信息改进学习,通过共享表示减少过度拟合。尽管多任务学习在许多其它领域都是有效的,但文献中的大多数深度步态识别解决方案都集中在单个识别任务上。因此,大多数现有作品学习对身份敏感的特征,而不考虑与其他潜在因素的相互作用,如情感状态、性别和年龄。在这种情况下,同时学习多个步态识别任务可能会带来新的设计范式和优化挑战,特别是在任务识别和损失函数方面。期望这些挑战在不久的将来引起进一步的关注,并在多任务学习的步态识别背景下加以解决。
Data Synthesis and Domain Adaptation
深度步态识别方法需要大量数据才能进行有效的训练和可靠的评估。这个问题在图8中很明显,其中大多数深度步态识别解决方案使用了大规模步态数据集,例如CASIA-B、OU-ISIR和OUMVLP。在深度步态识别的背景下,可以考虑使用GANs等数据合成来创建大型数据集或数据增强。此外,开发合成数据集也可能是有利的,因为可以使用伪造的受试者数据来缓解受试者隐私问题。类似的方法已经用于面部识别的隐私敏感领域,其中仅包含假数据的大型数据集已被开发用于深度学习研究。此外,此类方法可用于增加现有数据集的变化。 例如,OU-ISIR 和 OU-MVLP 等大规模步态数据集仅提供正常的步行序列,在遮挡或携带和服装条件方面没有变化。因此,在测试阶段面对外观和环境的变化时,针对这些数据集训练的解决方案通常无法很好地概括。这里,域适配是这个问题的潜在补救措施,它可以修改现有数据集以包括所需的变化,从而消除收集新数据的必要性。此外,步态合成可以用计算机动画和游戏引擎以生成大规模合成步态数据集。因此,预计随着步态数据合成和领域适应技术的进步,将构建更多互补的步态数据集,以开发更稳健的解决方案。
Cross-Dataset Evaluation
步态识别系统的实用价值很大程度上取决于它对未知数据的推广能力。据作者所知,文献中没有对知名数据集(如CASIA-B、OU-ISIR数据集和OUMVLP)进行跨数据集步态识别,因为文献中的显著解决方案都使用相同的步态数据集进行训练和测试。然而,在许多实际应用程序(如部署的产品)中,测试或运行时数据通常是在与训练数据相关的各种不同条件下获得的。为了检验步态识别系统在实际应用中的通用性,应采用跨数据集评估,例如使用迁移学习技术。在这种情况下,可以使用在一个数据集上训练的解决方案从另一个数据集的测试数据(验证集和注册集)中提取特征。然后,提取的特征可以提供分类器来进行步态识别。 跨数据集步态识别可能被表述为分布外(OOD) 测试问题,其中评估深度模型超出训练集偏差的泛化能力。预计OOD测试在评估步态识别方法的泛化能力方面越来越流行
。
Multi-View Recognition
大量步态数据集包含多视角序列,提供从不同视角捕获的步态信息。现有的方法大多只进行单视角步态识别。这些方法通常学习视角内关系,忽略多个视角之间的视角间信息。通过将问题转换为多视角,可以采用诸如门级融合 LSTM、状态级融合 LSTM、时空 LSTM和多视角 LSTM等描述符来共同学习视角内和视角间的关系。多视角步态识别的另一个挑战是,大多数现有的多视角描述符考虑具有固定摄像机位置的良好定义的摄像机视角。然而,现实环境中的数据收集通常是不可控的,即数据可能从不可预测的视角甚至从移动的摄像机捕获。为此,现有的多视角方法大多依赖于预先训练的描述符,无法弥合训练和运行时多视角数据之间的领域鸿沟。预计该领域未来的研究方向将通过提出新的方法来塑造,例如使用聚类算法、组合优化和自监督学习,以采用通用步态描述符来描述多视角几何。
Multi-biometric Recognition
该领域的一些文献已经将步态信息与其他生物特征信息融合
在一起,例如面部 [59]、[217] 和耳朵 [218]、[219]、[220],这些信息可以从高质量的步态视频中获得。正如之前所讨论的,步态识别系统在面临受试者外观和服装、相机视角和身体遮挡的变化时通常会受到挑战。另一方面,生物特征信息的其他来源,尤其是面部和耳朵,对这些挑战性因素不太敏感。相反,人脸和耳朵识别系统可能会受到其他一些因素的负面影响,如图像质量低,例如模糊或低分辨率图像、光线变化或面部遮挡,这些因素反过来对步态识别系统的性能影响有限。因此,在多生物识别系统中,各种生物识别模式和步态可以相互补充,以弥补彼此的弱点。除了互补(硬)生物特征外,还可以包括软生物特征,如年龄、身高、体重、性别和特定身体标记(包括纹身),以提高整体表现。其他软生物特征和硬生物特征与步态的结合大多在文献中基于非深度方法进行,同时也可以采用多模态深度学习方法,尤其是基于融合、联合学习和注意力的网络。因此,预计包括步态在内的深度多生物特征识别系统的研究将在未来几年内得到普及。
SUMMARY
本文提供了一个深度步态识别方法的调查,该方法由一个新的分类法驱动,具有四个维度,即身体表征、时间表征、特征表征和神经结构。根据提出的分类法,概述了最具代表性的深度步态识别方法,并讨论了它们的特点、优点和局限性。此外,还综述文献中报告的最常用的数据集及其评估协议和相应的性能结果。最后总结了这项调查,并讨论了当前面临的挑战,指出了这一领域未来一些有希望的研究方向。期望这项调查能够深入了解步态识别的技术前景,指导研究人员推进未来的研究。
参考文献
[31] A. Sepas-Moghaddam and A. Etemad,“View-invariant gait recognition with attentive recurrent learning of partial representations,” IEEE Transactions on Biometrics, Behavior, and Identity Science, vol. 3, no. 1, pp. 124–137, January 2021.
[32] C. Fan, Y. Peng, C. Cao, X. Liu, S. Hou, J. Chi, Y. Huang, Q. Li, and Z. He,“Gaitpart: Temporal part-based model for gait r
以上是关于深度步态识别综述的主要内容,如果未能解决你的问题,请参考以下文章
步态识别基于深度学习的步态识别系统的MATLAB仿真,包括ALEXNET,改进CNN,GOOGLENET