行人属性识别研究综述

Posted AI浩

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了行人属性识别研究综述相关的知识,希望对你有一定的参考价值。

文章目录

行人属性识别研究综述(一)

🐇🐇🐇🐇🐇🐇
🐇 欢迎阅读 【AI浩】 的博客🐇
👍 阅读完毕,可以动动小手赞一下👍
🌻 发现错误,直接评论区中指正吧🌻
📆 这是一篇研究行人属性识别综述论文📆
💯论文链接: Pedestrian Attribute Recognition: A Survey💯

6 PAR(行人属性识别)算法综述

在本节中,我们将从以下八个方面综述基于深度神经网络的PAR算法:基于全局的、基于局部部件的、基于视觉注意的、基于序列预测的、基于新设计的损失函数的、基于课程学习的、基于图模型的和其他算法。

6.1全局基于图像的模型

在本节中,我们将回顾只考虑全局图像的PAR算法,如ACN [5], DeepSAR [6], DeepMAR[6], MTCNN[7]。

6.1.1 ACN (iccvw-2015)

提出了一种基于卷积网络的多分支分类层的属性学习方法。如图22所示,他们采用预训练的AlexNet作为基本特征提取子网络,并使用KL-loss (Kullback-Leibler divergence based loss function)将最后的全连接层替换为每个属性一个损失。具体配方如下:
K L ( P ∥ Q ) = ∑ i N P ( x i ) log ⁡ Q ( x i ) P ( x i ) (11) K L(P \\| Q)=\\sum_i^N P\\left(x_i\\right) \\log \\fracQ\\left(x_i\\right)P\\left(x_i\\right) \\tag11 KL(PQ)=iNP(xi)logP(xi)Q(xi)(11)
其中Q是神经网络的预测,P是二进制属性的实际状态。

此外,他们还提出了一个名为PARSE-27k的新数据集来支持他们的评估。该数据集包含27000名行人,并配有10个属性标注。与普通的行人属性数据集不同,他们提出了一种新的类别标注方法,即,不可判定(N/A)。因为对于大多数输入图像,由于遮挡、图像边界或任何其他原因,一些属性是不可判定的。

6.1.2 DeepSAR and DeepMAR (ACPR-2015) [6]

针对传统行人属性识别方法中存在的2个问题,引入深度神经网络进行行人属性识别:1)现有方法中使用的手工特征,如HOG、颜色直方图、LBP (local binary patterns);2).属性之间的相关性通常被忽略。本文提出了DeepSAR和DeepMAR两种算法,如图23所示。他们采用AlexNet作为骨干网络,通过将最后一个密集层定义的输出类别更改为两个来获得DeepSAR。采用softmax损失计算最终的分类损失。

尽管DeepSAR可以使用深度特征进行二分类。然而,它没有对人类属性之间的相关性进行建模,而这可能是进一步提高整体识别性能的关键。因此,他们提出了DeepMAR,同时接收人类图像及其属性标签向量,并通过sigmoid交叉熵损失联合考虑所有属性:
L c e = − 1 N ∑ i = 1 N ∑ l = 1 L y i l log ⁡ ( P ^ i l ) + ( 1 − y i l ) log ⁡ ( 1 − p i l ^ ) (12) L_c e=-\\frac1N \\sum_i=1^N \\sum_l=1^L y_i l \\log \\left(\\hatP_i l\\right)+\\left(1-y_i l\\right) \\log \\left(1-\\hatp_i l\\right) \\tag12 Lce=N1i=1Nl=1Lyillog(P^il)+(1yil)log(1pil^)(12)

p i l ^ = 1 1 + exp ⁡ ( − x i l ) (13) \\hatp_i l=\\frac11+\\exp \\left(-x_i l\\right)\\tag13 pil^=1+exp(xil)1(13)

其中 p i l ^ \\hatp_i l pil^是样本 x i x_i xi第l个属性的估计得分。 y i l y_il yil是最真实的标签。

此外,他们还考虑了实际监控场景中的标签分布不平衡问题,提出了一种改进的损失函数如下:
L w c e = − 1 N ∑ i = 1 N ∑ l = 1 L w l ( y i l log ⁡ ( P i l ^ ) + ( 1 − y i l ) log ⁡ ( 1 − p i l ^ ) ) (14) L_w c e=-\\frac1N \\sum_i=1^N \\sum_l=1^L w_l\\left(y_i l \\log \\left(\\hatP_i l\\right)+\\left(1-y_i l\\right) \\log \\left(1-\\hatp_i l\\right)\\right) \\tag14 Lwce=N1i=1Nl=1Lwl(yillog(Pil^)+(1yil)log(1pil^))(14)

w l = exp ⁡ ( − p l / σ 2 ) (15) w_l=\\exp \\left(-p_l / \\sigma^2\\right) \\tag15 wl=exp(pl/σ2)(15)

其中 w l w_l wl是第l层属性的损失权重。 p l p_l pl表示训练数据集中l层属性的正比率。 σ \\sigma σ是一个超参数。

6.1.3 MTCNN (TMM-2015) [7]

文中提出了一种利用CNN进行属性估计的联合多任务学习算法MTCNN,如图24所示。MTCNN让CNN模型在不同属性类别之间共享视觉知识。通过对CNN特征进行多任务学习来估计相应的属性。在他们的MTL框架中,他们还使用了丰富的信息组,因为知道任何关于特征统计信息的先验信息肯定会帮助分类器。利用分解方法从分类器总权重矩阵W中得到可共享的潜在任务矩阵L和组合矩阵S,通过学习局部特征 W = L S W = LS W=LS实现灵活的组间全局共享和竞争。因此,目标函数(MTL squared maxing hinge loss)表示为:
min ⁡ L , S ∑ m = 1 M ∑ i = 1 N m 1 2 [ max ⁡ ( 0 , 1 − Y m i ( L s m ) T X m i ) ] 2 + μ ∑ k = 1 K ∑ g = 1 G ∥ s k g ∥ 2 + γ ∥ L ∥ 1 + λ ∥ L ∥ F 2 (16) \\beginarrayr \\min _L, S \\sum_m=1^M \\sum_i=1^N_m \\frac12\\left[\\max \\left(0,1-Y_m^i\\left(L s^m\\right)^T X_m^i\\right)\\right]^2+ \\\\ \\mu \\sum_k=1^K \\sum_g=1^G\\left\\|s_k^g\\right\\|_2+\\gamma\\|L\\|_1+\\lambda\\|L\\|_F^2 \\endarray \\tag16 第66篇行人属性识别研究综述

行人属性识别研究综述

行人属性识别研究综述

行人属性识别的一个调研

行人属性识别的一个调研

深度学习行人重识别综述与展望,TPAMI 2021 最新文章