行人重识别在深度上有啥问题可以提

Posted 2023-04-24

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了行人重识别在深度上有啥问题可以提相关的知识，希望对你有一定的参考价值。

参考技术A 现在深度学习在机器学习领域是一个很热的概念，不过经过各种媒体的转载播报，这个概念也逐渐变得有些神话的感觉：例如，人们可能认为，深度学习是一种能够模拟出人脑的神经结构的机器学习方式，从而能够让计算机具有人一样的智慧；而这样一种技术在将来无疑是前景无限的。那么深度学习本质上又是一种什么样的技术呢？
深度学习是什么
深度学习是机器学习领域中对模式（声音、图像等等）进行建模的一种方法，它也是一种基于统计的概率模型。在对各种模式进行建模之后，便可以对各种模式进行识别了，例如待建模的模式是声音的话，那么这种识别便可以理解为语音识别。而类比来理解，如果说将机器学习算法类比为排序算法，那么深度学习算法便是众多排序算法当中的一种（例如冒泡排序），这种算法在某些应用场景中，会具有一定的优势。
深度学习的“深度”体现在哪里
论及深度学习中的“深度”一词，人们从感性上可能会认为，深度学习相对于传统的机器学习算法，能够做更多的事情，是一种更为“高深”的算法。而事实可能并非我们想象的那样，因为从算法输入输出的角度考虑，深度学习算法与传统的有监督机器学习算法的输入输出都是类似的，无论是最简单的Logistic Regression，还是到后来的SVM、boosting等算法，它们能够做的事情都是类似的。正如无论使用什么样的排序算法，它们的输入和预期的输出都是类似的，区别在于各种算法在不同环境下的性能不同。
那么深度学习的“深度”本质上又指的是什么呢？深度学习的学名又叫深层神经网络（Deep Neural Networks ），是从很久以前的人工神经网络（Artificial Neural Networks）模型发展而来。这种模型一般采用计算机科学中的图模型来直观的表达，而深度学习的“深度”便指的是图模型的层数以及每一层的节点数量，相对于之前的神经网络而言，有了很大程度的提升。
深度学习也有许多种不同的实现形式，根据解决问题、应用领域甚至论文作者取名创意的不同，它也有不同的名字：例如卷积神经网络（Convolutional Neural Networks）、深度置信网络（Deep Belief Networks）、受限玻尔兹曼机（Restricted Boltzmann Machines）、深度玻尔兹曼机（Deep Boltzmann Machines）、递归自动编码器（Recursive Autoencoders）、深度表达（Deep Representation）等等。不过究其本质来讲，都是类似的深度神经网络模型。
既然深度学习这样一种神经网络模型在以前就出现过了，为什么在经历过一次没落之后，到现在又重新进入人们的视线当中了呢？这是因为在十几年前的硬件条件下，对高层次多节点神经网络的建模，时间复杂度（可能以年为单位）几乎是无法接受的。在很多应用当中，实际用到的是一些深度较浅的网络，虽然这种模型在这些应用当中，取得了非常好的效果（甚至是the state of art），但由于这种时间上的不可接受性，限制了其在实际应用的推广。而到了现在，计算机硬件的水平与之前已经不能同日而语，因此神经网络这样一种模型便又进入了人们的视线当中。
“ 2012年6月，《纽约时报》披露了Google Brain项目，吸引了公众的广泛关注。这个项目是由著名的斯坦福大学机器学习教授Andrew Ng和在大规模计算机系统方面的世界顶尖专家Jeff Dean共同主导，用16000个CPU Core的并行计算训练一种称为“深层神经网络”（DNN，Deep Neural Networks） ”
从Google Brain这个项目中我们可以看到，神经网络这种模型对于计算量的要求是极其巨大的，为了保证算法实时性，需要使用大量的CPU来进行并行计算。
当然，深度学习现在备受关注的另外一个原因，当然是因为在某些场景下，这种算法模式识别的精度，超过了绝大多数目前已有的算法。而在最近，深度学习的提出者修改了其实现代码的Bug之后，这种模型识别精度又有了很大的提升。这些因素共同引起了深层神经网络模型，或者说深度学习这样一个概念的新的热潮。
深度学习的优点
为了进行某种模式的识别，通常的做法首先是以某种方式，提取这个模式中的特征。这个特征的提取方式有时候是人工设计或指定的，有时候是在给定相对较多数据的前提下，由计算机自己总结出来的。深度学习提出了一种让计算机自动学习出模式特征的方法，并将特征学习融入到了建立模型的过程中，从而减少了人为设计特征造成的不完备性。而目前以深度学习为核心的某些机器学习应用，在满足特定条件的应用场景下，已经达到了超越现有算法的识别或分类性能。
深度学习的缺点
深度学习虽然能够自动的学习模式的特征，并可以达到很好的识别精度，但这种算法工作的前提是，使用者能够提供“相当大”量级的数据。也就是说在只能提供有限数据量的应用场景下，深度学习算法便不能够对数据的规律进行无偏差的估计了，因此在识别效果上可能不如一些已有的简单算法。另外，由于深度学习中，图模型的复杂化导致了这个算法的时间复杂度急剧提升，为了保证算法的实时性，需要更高的并行编程技巧以及更好更多的硬件支持。所以，目前也只有一些经济实力比较强大的科研或，才能够用深度学习算法，来做一些比较前沿而又实用的应用。本回答被提问者采纳参考技术B 1. 跨domain学习。现在常用的学习数据集可能是国内国人的数据（如清华拍摄的Market 和CUHK地铁站拍摄的CUHK03），模型应用到老外并且是冬天的数据集 DukeMTMC-reID上结果有了明显下降。学习一个鲁棒性好的模型依旧是一个问题。
2. attribute 属性学习。 Market1501 和DukeMTMC-reID 都提供了属性（衣服颜色等等），如何衡量属性之间的权重。
3. 视频检索。以视频搜视频，如Mars和PRID2011数据集，还是以image base的model为主，时序信息有限。

深度学习行人重识别综述与展望，TPAMI 2021 最新文章

作者 | 叶茫武汉大学

编辑 | CV君

报道 | 我爱计算机视觉（微信id：aicvml）

摘要：行人重识别（Person Re-Identification，简称Re-ID），是一种利用计算机视觉技术来检索图像或者视频序列中是否存在特定行人的AI技术，在智慧城市等监控场景中具有重要的应用意义和前景。本文介绍我们最新的IEEE TPAMI综述论文《Deep Learning for Person Re-identification: A Survey and Outlook》，该文作者来自武汉大学、起源人工智能研究院（IIAI）、北理工、英国萨里大学、Salesforce亚洲研究院。

首先非常感谢领域内的前辈和各位大佬，为该综述提供了非常充实的素材和基础。

这里先总结该综述的几个主要贡献点：

综述：全面调研了近年来深度学习在 Re-ID 领域的进展，囊括了近几年三大视觉顶会上的大部分文章（如有遗漏，请谅解）。主要包括 Closed-world Re-ID 与 Open-world Re-ID 的研究进展，常用数据集和评价指标的概述，并分析了现有方法的不足和改进点。
展望：1) 一个新的评价指标 mINP ，用来评价找到最困难匹配行人所需要的代价；2) 一个强有力的 AGW 方法，在四种不同类型的 Re-ID 任务，包括 12个数据集中取得了较好的效果；3) 从五个不同的方面讨论了未来 Re-ID 研究的重点和难点，仅供大家参考。

前言

根据个人理解，本文总结 Re-ID 技术的五大步骤：

数据采集，一般来源于监控摄像机的原始视频数据；
行人框生成，从视频数据中，通过人工方式或者行人检测或跟踪方式将行人从图中裁切出来，图像中行人将会占据大部分面积；
训练数据标注，包含相机标签和行人标签等其他信息；
重识别模型训练，设计模型（主要指深度学习模型），让它从训练数据中尽可能挖掘“如何识别不同行人的隐藏特征表达模式”；
行人检索，将训练好的模型应用到测试场景中，检验该模型的实际效果。

如下图所示：

全文的综述和展望都是围绕这五个步骤来展开和讨论的。针对以上五个步骤的一些约束条件，本文将ReID技术分为 Closed-world 和 Open-world 两大子集。Closed-world 概括为大家常见的标注完整的有监督的行人重识别方法，Open-world 概括为多模态数据，端到端的行人检索，无监督或半监督学习，噪声标注和一些 Open-set 的其他场景。

Closed-world Re-ID

这一章节主要介绍大家常用的封闭世界（Closed-world）Re-ID 设置，一般包含以下假设：

通过图像或视频，可见光（RGB）摄像机捕捉行人；
行人由 bounding boxes 框出；
有足够多的被标注训练数据；
标注的数据标签通常都是正确的；
query person 必须出现在 gallery set 中。

根据方法设计流程，将其分为特征学习，度量学习和排序优化三个部分。研究人员的方法通常针对这三方面进行改进，侧重点不同。有的是提出了新颖的特征学习方法，有的提出有效的度量损失函数，也有的是在测试检索阶段进行优化。在本章节末尾，还概括了现有的常用数据集和评价指标，以及现有 SOTA 的优缺点分析。

2.1 特征学习方法

全局特征学习：利用全身的全局图像来进行特征学习，常见的改进思路有Attention 机制，多尺度融合等；
局部特征学习：利用局部图像区域（行人部件或者简单的垂直区域划分）来进行特征学习，并聚合生成最后的行人特征表示；
辅助特征学习：利用一些辅助信息来增强特征学习的效果，如语义信息（比如行人属性等）、视角信息（行人在图像中呈现的不同方位信息）、域信息（比如每一个摄像头下的数据表示一类域）、GAN 生成的信息（比如生成行人图像）、数据增强等；
视频特征学习：利用一些视频数据提取时序特征，并且融合多帧图像信息来构建行人特征表达
特定的网络设计：利用 Re-ID 任务的特性，设计一些细粒度，多尺度等相关的网络结构，使其更适用于 Re-ID 的场景。

2.2 度量学习方法

早期的度量学习主要是设计不同类型的距离/相似度度量矩阵。深度学习时代，主要包括不同类型的损失函数的设计及采样策略的改进：

Identity Loss : 将 Re-ID 的训练过程当成图像分类问题，同一个行人的不同图片当成一个类别，常见的有 Softmax 交叉熵损失函数；
Verification Loss ：将 Re-ID 的训练当成图像匹配问题，是否属于同一个行人来进行二分类学习，常见的有对比损失函数，二分类损失函数；
Triplet Loss ：将 Re-ID 的训练当成图像检索问题，同一个行人图片的特征距离要小于不同行人的特征距离，以及其各种改进；
训练策略的改进：自适应的采样方式（样本不均衡，难易程度）以及不同的权重分配策略

2.3 排序优化

用学习好的 Re-ID 特征得到初始的检索排序结果后，利用图片之间的相似性关系来进行初始的检索结果优化，主要包括重排序（re-ranking）和排序融合（rank fusion）等。

深度学习行人重识别综述与展望，TPAMI 2021 最新文章

图 4. 重排序示例

2.4 数据集和评价

主要包括现有的一些常用图像和视频数据集的概括，以及现有方法 SOTA 的一些总结和分析，希望综述里面的一些分析能够在大家进行模型设计时提供一些思路和帮助。具体分析详见原文。

Open-World Re-ID

由于常规的 Closed-world Re-ID 在有监督的实验场景中已经达到或接近瓶颈了，现在很多的研究都更偏向于 Open-World Re-ID 场景，也是当前Re-ID研究的热点。

根据 Re-ID 系统设计的五个步骤，本章节也从以下五个方面介绍：

多模态数据，所采集的数据不是单一的可见光模态；
端到端的行人检索（End-to-end Person Search）,没有预先检测或跟踪好的行人图片/视频；
无监督和半监督学习，标注数据有限或者无标注的新场景；
噪声标注的数据，即使有标注，但是数据采集和标注过程中存在噪声或错误；
一些其他 Open-set 场景，查询行人找不到，群体重识别，动态的多摄像头网络等。

3.1 多模态（异构）数据

基于深度图像 Re-ID ：旨在利用深度图信息的匹配（融合或跨模态匹配），在很多人机交互的室内场景应用中非常重要；
文本到图像 Re-ID ：旨在利用文字语言描述来搜索特定的行人图像，解决实际场景中查询行人图像缺失等问题；
可见光到红外 Re-ID ：旨在跨模态匹配白天的可见光图像到夜晚的红外行人图像，也有一些方法直接解决低照度的重识别任务；
跨分辨率 Re-ID ：不同高低分辨率行人图像匹配，旨在解决不同距离摄像头下行人分辨率差异巨大等问题

总体而言，异构的行人重识别问题需要解决的一大难题是不同模态数据之间的差异性问题

3.2 端到端Re-ID（End-to-end Person Search）

纯图像/视频的 Re-ID；从原始 raw 图像或者视频中直接检索出行人；
多摄像头跟踪的 Re-ID；跨摄像头跟踪，也是很多产业化应用的重点。

3.3 半监督和无监督的 Re-ID

为了缓解对标注数据的依赖，半监督和无监督/自监督现在成为了当前研究的热点，在 CV 顶会上呈爆炸之势。本文也主要分成两个部分：无监督 Re-ID（不需要标注的源域）和无监督域自适应 Re-ID（需要标注的源域数据或模型）：

无监督 Re-ID ：主要包括一些跨摄像头标签估计（聚类或图匹配等）的方法，以及一些其他监督信息挖掘的方法（如local patch相似性等）；
无监督域自适应 Re-ID ：包括一些目标域图像数据生成和一些目标域监督信息挖掘等方式。

考虑到无监督学习也是现在研究的热点，本文也对现有的 SOTA 做了一个简单的总结和分析，可以看到现在的无监督学习方法已经是效果惊人了，未来可期。

如下表所示：

3.4 噪声鲁棒的Re-ID

主要针对标注数据或者数据采集中产生的一些噪声或错误等，方法包括：

Partial Re-ID ：解决行人图像区域部分被遮挡的行人重识别问题；
Noise Sample ：主要针对行人图像或视频中检测、跟踪产生的错误或偏差
Noise Label ：主要针对行人标签标注产生的错误

3.5 Open-set Re-ID and Beyond

主要针对一些其他开放场景进行一些探讨，如1）gallery set 中 query 行人没有出现的场景；2）Group Re-ID:行人群体匹配的问题；3）动态的多摄像头网络匹配等问题

展望

4.1 新的评价指标mINP:

考虑到实际场景中，目标人物具有隐匿性，很多时候要找到其困难目标都非常难，给侦查工作带来麻烦。mINP 主要目的是为了衡量 Re-ID 算法用来找到最难匹配样本所要付出的代价，

其计算方式跟 mAP 一样非常简单，应该还是对评价 Re-ID 效果有一定补充作用。简单来讲，排名倒数第一的正确样本位置越靠后，人工排查干预的代价越大，mINP的值越小。这里感谢 Fast-ReID（ github.com/JDAI-CV/fast ）项目对我们评价指标和方法的集成。

4.2 新的基准方法AGW

主要是在@罗浩的Bag of tricks（感谢）上做的一些改进，主要包括：

Non-local注意力机制的融合；
Generalized-mean (GeM) Pooling的细粒度特征提取；
加权正则化的三元组损失（Weighted Regularization Triplet (WRT) loss）

在审稿人的建议下，我们在四种不同类型的任务（图像Re-ID, 视频Re-ID，跨模态红外Re-ID和Partial Re-ID）的12个数据集上均对我们提出的新指标mINP和AGW方法进行了测评，在大多数情况下，我们的方法都能够取得比较好的效果。具体的实验结果和分析可以参考我们的论文和补充材料，希望我们的方法和评价指标能对大家有一些帮助。

4.3 对未来一些研究方向的思考

这一部分也是紧扣前面提出的五个步骤，针对五个步骤未来亟待解决的关键问题或者热点问题进行归纳。由于每个人理解上的认知偏差，这里的建议仅供大家参考：

不可控的数据采集：不确定多种模态混合的 Re-ID，而不是固定的模态设置；换装的 Re-ID，2020 年已经有好几个新的数据集；
减少人工标注依赖：人机交互的主动学习，选择性的标注；从虚拟数据进行学习（Learning from virtual data），如何解决虚拟数据中的domain gap；
面向 Re-ID 通用网络设计：Domain Generalized Re-ID，如何设计一种在未知场景中也表现优异的模型，如何利用自动化机器学习来设计针对 Re-ID 任务的网络模型；
动态的模型更新：如何以小的代价将学习好的网络模型微调至新摄像头场景中；如何高效的利用新采集的数据（Newly Arriving Data）来更新之前已训练好的模型；
高效的模型部署：轻量型快速的行人重识别算法设计，自适应的针对不同类型的硬件配置（小型的移动手机和大型服务器）调整模型。

后记：很多内容在这里都没办详细描述，具体的细节还请大家移步原文、补充材料以及源代码。因能力有限，部分描述不一定完全客观正确，希望大家能够理解。希望我们的综述能够给领域内的同行提供一些帮助和借鉴。再次感谢各位同行和前辈！欢迎各位批评指正！

备注：reid

行人-ReID-步态交流群

行人检测、行人重识别、步态识别等技术，

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

以上是关于行人重识别在深度上有啥问题可以提的主要内容，如果未能解决你的问题，请参考以下文章