Crowd Counting领域论文阅读

Posted 2022-09-15 苦糖?

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Crowd Counting领域论文阅读相关的知识，希望对你有一定的参考价值。

本文使用 deep and shallow, fully convolutional networks 两个网络相结合实现，网络结构如下：

Crowd

解决的问题

高度密集的人群图像遭受严重的遮挡,可以从各种角度捕获人群图像，从而引入透视问题。但这会导致人群的比例缩放不均匀。此外，注释高度密集的人群图像很难，这使得创建大规模人群计数数据集变得不可行，并且限制了可用于基于学习的方法的训练数据量。

主要的思想

Deep Network

主要用捕获 high-level semantics 信息，采用一个类似 VGG网络的结构，去掉了全连接层，使得网络变成了全卷积层。同时原来的 VGG网络使用了5个 max-pool layers each with a stride of 2，最终的特征图大小只有输入图像尺寸的1/32。因为需要输出像素级别的人群密度估计图，所以 set the stride of the fourth max-pool layer to 1 and remove the fifth pooling layer，这样最终的特征图大小只有输入图像尺寸的 1/8.将第四最大池化层的步长设置为1会导致 the receptive-field mismatch，这里使用了文献【4】中的膨胀卷积。其结果就相当第四最大池化层的步长设置为2。

Shallow Network

使用一个 shallow convolutional network 主要用于检测远离相机的人头。

Combination of Deep and Shallow Networks

这里连接Deep and Shallow Networks 的输出，输入图像尺寸的 1/8，使用一个 1x1 convolution layer，再使用双线性插值将样本上采样到输入图像的大小，以获得最终人群密度预测。

Ground Truth

通过使用归一化为一个总和的高斯核简单地模糊每个头部注释来生成Groud Truth.

数据扩充

1）多尺度采样

2）对容易错误的样本多训练几次

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

本文提出了一种简单有效的的多列卷积神经网络结构(MCNN)将图像映射到其人群密度图上，可以从一个单幅的图像中准确地估计任意人群密度和任意角度的人群数目。

解决的问题

在大多数现有的工作中，前景分割必不可少，但前景分割是项艰巨的任务；人群的密度和分布会有显著变化，因此传统的基于目标检测的模型很难work well；需要一种有效的特征来针对图像中人群规模可能有显著变化的情况。

主要的贡献

1）MCNN是包含了三列具有不同滤波器大小的卷积神经网络。采用多列架构的原因是：三列对应于不同大小的感受野（大，中，小），使每个列卷积神经网络的功能对由于透视或不同的图像分辨率造成的人/头大小变化是自适应的。

2）用一个1*1滤波器的卷积层代替了完全连接的层，因此模型的输入图像可以是任意大小的，避免了失真。网络的直接输出是一个人群密度估计图，从中可以得到的整体计数。

3）收集了一个新的数据集Shanghaitech dataset 用于人群计数方法的评价。

MCNN

先将带有标签的人头图像转换为人群密度图。为了使得密度图能够更好地与不同视角（不同人头大小）且人群很密的图像对应起来，作者对传统的基于高斯核的密度图做了改进，提出了基于几何适应高斯核的密度图，由下式表示：

Crowd

MCNN主要是受到MDNNs在图像分类上取得成功的启发而提出来的。MCNN网络的每一列并行的子网络深度相同，但是滤波器的大小不同，因此每一列子网络的感受野不同，能够抓住不同大小人头的特征，最后将三列子网络的特征图做线性加权（由1x1的卷积完成）得到该图像的人群密度图，类似模型融合的思想。采用了2*2的max-pooling和ReLU激活函数。（注意，因为这里用到了两次max pooling，所以需要先对训练样本也缩小到1/4，再生成对应的密度图ground truth）

Crowd

损失函数如下式：

Crowd

Experiment

MCNN比Single column CNNs的MAE和MSE都要低，MCNN比没有预训练的MCNN性能有所提高。

存在的问题

这些方法能相对压制尺度变化问题，但是仍存在两个缺点：多列/多网络需要预训练但网络for global optimization，比端到端训练更复杂；多列/多网络会引入更多的参数，消耗计算资源，难以实际应用。

以上是关于Crowd Counting领域论文阅读的主要内容，如果未能解决你的问题，请参考以下文章