多目标跟踪(MOT/MTT)

Posted 2022-01-27 Arrow

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多目标跟踪(MOT/MTT)相关的知识，希望对你有一定的参考价值。

目标检测

1. 概述
2. 移动端优化方法
3. PP-PicoDet
- 3.1 算法结构
- 3.2 优化预测精度和速度
4. 轻量级关键点检测算法
5. 多目标跟踪(MOT: Multiple Object Tracking)
6. 跨镜跟踪

1. 概述

PP-PicoDet与 PP-Yolo速度相当，但精度更高。

1.1 常用术语

FPN：Feature Pyramid Network （特征金字塔）
DCN ：Deformable Convolution (可变形卷积)
SPP：Spatial Pyramid Pooling Layer
SOT：Single Object Tracking （单目标跟踪）
MTT：Multiple Target Tracking (多目标跟踪)
MOT：Multiple Object Tracking (多目标跟踪)
- 使用卡尔曼滤波算法对多目标的状态进行估计
- 使用匈牙利算法对多目标进行匹配，实现多目标跟踪。
CBN： Cross-iteration Batch Normalization (交叉迭代批量归一化)
PAN：Path Aggregation Network（路径聚合网络）
SORT：Simple Online and Realtime Tracking (简单在线和实时跟踪)
ReID：Person Re-identification (行人重识别)
MTMC：Multi-Target Multi-Camera (跨摄像头多目标跟踪)
SDE：Separate Detection Embedding (Detection与Embedding分为两个独立的模型，性能高、实时性差)
JDE：Joint Detection Embedding（Detection与Embedding通过同一个网络实现，Detection用的是one-stage的方法）
Heatmap：热力图，深度学习中常用Heatmap来表示二维坐标点
- 编码：将二维坐标点转化为热力图的过程叫做编码(神经网络模型的编码模块)。常用的编码方法采用高斯分布来生成热力图，以高斯分布的中心点坐标来表示点坐标。
- 解码：将热力图转化为二维坐标点的过程叫解码(神经网络模型的解码模块)。解码过程通常处理的是非理想热力图，将热力图近似服从高斯分布，当前对热力图的解码方法有：标准法，偏移法和微分法。

1.2 数据集

1.3 网络组件

1.4.1 Backbone （骨干网络）

骨干网络负责特征提取，且已在大型数据集(例如ImageNet|COCO等)上完成预训练，拥有预训练参数的卷积神经网络，例如：ResNet-50、Darknet53等
Backbone可用以下网络
- VGG16
- ResNet-50
- SpineNet
- EfficientNet-B0/B7
- CSPResNeXt50
- CSPDarknet53

1.4.2 Neck

Neck位于Backone和Head之间，用于从不同阶段收集特征图，然后进行融合。
一个Neck由几个自下而上的路径和几个自上而下的路径组成。
Neck可用以下网络
- Additional blocks: SPP, ASPP, RFB SAM
- Path-aggregation blocks: FPN, PAN, NAS-FPN, Fully-connected FPN, BiFPN, ASFF, SFAM

1.4.3 Head

用于预测目标的种类、位置(bounding boxes)和特征等输出信息
分类：
- Dense Prediction (one-stage)：
  - 基于Anchor：RPN, SSD, YOLO, RetinaNet
  - 无Anchor ：CornerNet, CenterNet, MatrixNet, FCOS
- Sparse Prediction (two-stage)：
  - 基于Anchor：Faster R-CNN , R-FCN, Mask RCNN
  - 无Anchor ：RepPoints