行人属性识别研究综述
Posted AI浩
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了行人属性识别研究综述相关的知识,希望对你有一定的参考价值。
文章目录
- 6 PAR(行人属性识别)算法综述
- 7 应用
- 8 未来研究方向
- 9 结论
🐇🐇🐇🐇🐇🐇 🐇 欢迎阅读 【AI浩】 的博客🐇 👍 阅读完毕,可以动动小手赞一下👍 🌻 发现错误,直接评论区中指正吧🌻 📆 这是一篇研究行人属性识别综述论文📆 💯论文链接: Pedestrian Attribute Recognition: A Survey💯
6 PAR(行人属性识别)算法综述
在本节中,我们将从以下八个方面综述基于深度神经网络的PAR算法:基于全局的、基于局部部件的、基于视觉注意的、基于序列预测的、基于新设计的损失函数的、基于课程学习的、基于图模型的和其他算法。
6.1全局基于图像的模型
在本节中,我们将回顾只考虑全局图像的PAR算法,如ACN [5], DeepSAR [6], DeepMAR[6], MTCNN[7]。
6.1.1 ACN (iccvw-2015)
提出了一种基于卷积网络的多分支分类层的属性学习方法。如图22所示,他们采用预训练的AlexNet作为基本特征提取子网络,并使用KL-loss (Kullback-Leibler divergence based loss function)将最后的全连接层替换为每个属性一个损失。具体配方如下:
K
L
(
P
∥
Q
)
=
∑
i
N
P
(
x
i
)
log
Q
(
x
i
)
P
(
x
i
)
(11)
K L(P \\| Q)=\\sum_i^N P\\left(x_i\\right) \\log \\fracQ\\left(x_i\\right)P\\left(x_i\\right) \\tag11
KL(P∥Q)=i∑NP(xi)logP(xi)Q(xi)(11)
其中Q是神经网络的预测,P是二进制属性的实际状态。
此外,他们还提出了一个名为PARSE-27k的新数据集来支持他们的评估。该数据集包含27000名行人,并配有10个属性标注。与普通的行人属性数据集不同,他们提出了一种新的类别标注方法,即,不可判定(N/A)。因为对于大多数输入图像,由于遮挡、图像边界或任何其他原因,一些属性是不可判定的。
6.1.2 DeepSAR and DeepMAR (ACPR-2015) [6]
针对传统行人属性识别方法中存在的2个问题,引入深度神经网络进行行人属性识别:1)现有方法中使用的手工特征,如HOG、颜色直方图、LBP (local binary patterns);2).属性之间的相关性通常被忽略。本文提出了DeepSAR和DeepMAR两种算法,如图23所示。他们采用AlexNet作为骨干网络,通过将最后一个密集层定义的输出类别更改为两个来获得DeepSAR。采用softmax损失计算最终的分类损失。
尽管DeepSAR可以使用深度特征进行二分类。然而,它没有对人类属性之间的相关性进行建模,而这可能是进一步提高整体识别性能的关键。因此,他们提出了DeepMAR,同时接收人类图像及其属性标签向量,并通过sigmoid交叉熵损失联合考虑所有属性:
L
c
e
=
−
1
N
∑
i
=
1
N
∑
l
=
1
L
y
i
l
log
(
P
^
i
l
)
+
(
1
−
y
i
l
)
log
(
1
−
p
i
l
^
)
(12)
L_c e=-\\frac1N \\sum_i=1^N \\sum_l=1^L y_i l \\log \\left(\\hatP_i l\\right)+\\left(1-y_i l\\right) \\log \\left(1-\\hatp_i l\\right) \\tag12
Lce=−N1i=1∑Nl=1∑Lyillog(P^il)+(1−yil)log(1−pil^)(12)
p i l ^ = 1 1 + exp ( − x i l ) (13) \\hatp_i l=\\frac11+\\exp \\left(-x_i l\\right)\\tag13 pil^=1+exp(−xil)1(13)
其中 p i l ^ \\hatp_i l pil^是样本 x i x_i xi第l个属性的估计得分。 y i l y_il yil是最真实的标签。
此外,他们还考虑了实际监控场景中的标签分布不平衡问题,提出了一种改进的损失函数如下:
L
w
c
e
=
−
1
N
∑
i
=
1
N
∑
l
=
1
L
w
l
(
y
i
l
log
(
P
i
l
^
)
+
(
1
−
y
i
l
)
log
(
1
−
p
i
l
^
)
)
(14)
L_w c e=-\\frac1N \\sum_i=1^N \\sum_l=1^L w_l\\left(y_i l \\log \\left(\\hatP_i l\\right)+\\left(1-y_i l\\right) \\log \\left(1-\\hatp_i l\\right)\\right) \\tag14
Lwce=−N1i=1∑Nl=1∑Lwl(yillog(Pil^)+(1−yil)log(1−pil^))(14)
w l = exp ( − p l / σ 2 ) (15) w_l=\\exp \\left(-p_l / \\sigma^2\\right) \\tag15 wl=exp(−pl/σ2)(15)
其中 w l w_l wl是第l层属性的损失权重。 p l p_l pl表示训练数据集中l层属性的正比率。 σ \\sigma σ是一个超参数。
6.1.3 MTCNN (TMM-2015) [7]
文中提出了一种利用CNN进行属性估计的联合多任务学习算法MTCNN,如图24所示。MTCNN让CNN模型在不同属性类别之间共享视觉知识。通过对CNN特征进行多任务学习来估计相应的属性。在他们的MTL框架中,他们还使用了丰富的信息组,因为知道任何关于特征统计信息的先验信息肯定会帮助分类器。利用分解方法从分类器总权重矩阵W中得到可共享的潜在任务矩阵L和组合矩阵S,通过学习局部特征
W
=
L
S
W = LS
W=LS实现灵活的组间全局共享和竞争。因此,目标函数(MTL squared maxing hinge loss)表示为:
min
L
,
S
∑
m
=
1
M
∑
i
=
1
N
m
1
2
[
max
(
0
,
1
−
Y
m
i
(
L
s
m
)
T
X
m
i
)
]
2
+
μ
∑
k
=
1
K
∑
g
=
1
G
∥
s
k
g
∥
2
+
γ
∥
L
∥
1
+
λ
∥
L
∥
F
2
(16)
\\beginarrayr \\min _L, S \\sum_m=1^M \\sum_i=1^N_m \\frac12\\left[\\max \\left(0,1-Y_m^i\\left(L s^m\\right)^T X_m^i\\right)\\right]^2+ \\\\ \\mu \\sum_k=1^K \\sum_g=1^G\\left\\|s_k^g\\right\\|_2+\\gamma\\|L\\|_1+\\lambda\\|L\\|_F^2 \\endarray \\tag16
第66篇行人属性识别研究综述