15 cvpr An Improved Deep Learning Architecture for Person Re-Identification
http://www.umiacs.umd.edu/~ejaz/* 也是同时学习feature和metric
* 输入一对图片,输出是否是同一个人
* 包含了一个新的层:
include a layer that computes cross-input neighborhood differences
(capture local relationships between the two input images based on midlevel features from each input image )
* A high-level summary of the outputs of this layer is computed by a layer of patch summary features
* 在比较大的数据集CUHK03,中等数据集CUHK01取得较好的结果,在无关的大数据集上预训练然后在小数据集上fine-tune后也在小数据集(VIPeR)上有comparable to the state of art的性能
* Person Re-id的定义:the problem of identifying people across images that have been taken using different cameras, or across time using a single camera
* 难点: 由于光照和视角等原因,同一个人变化很大,不同人的样子可能很像

* 一般是输入两张图片,计算它们的相似度或者判断他们是同一类或者不是同一类

cross-inputneighborhood difference
f只有中心(x,y)的一个值,5x5的每个元素都是这个值。 g是(x,y)为中心的5x5邻域。
输入12x37x25-->输出12x37x5x5, 共50通道
然后过一个patch summary layer, 通过卷积实现

visualization of features

visualization of weights

给正样本对做data augmentation,但仍然是不平衡的
因此采用hard negative mining:
用这个模型去分类负样本对,找出网络表现最差的,然后用这些样本 只重训练顶层的fc(实验说明比重训连整个网络要更有效,这也相当于fine-tune)
对于很小的数据集,用大数据集训练的模型(在hard-negative mining之后)初始化,然后fine-tuning,此时learning rate比原来小10倍,0.001

这篇文章提出了一个可能的改进方向,对不同的身体部位训练不同的模型, 然后将不同部位的分数组合起来得到最后的决策,这对于实际场景中有严重的occlusion或者对于 图片中的人在一系列时刻做不同动作的(比如某一时刻坐着,另一时刻站着)的情况可能会有帮助。
