多目标跟踪:文献综述
Posted AI浩
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多目标跟踪:文献综述相关的知识,希望对你有一定的参考价值。
文章目录
摘要
多目标跟踪(MOT)由于其学术和商业潜力而受到越来越多的关注。虽然已经提出了不同的方法来解决这个问题,但由于突然的外观变化和严重的物体遮挡等因素,它仍然具有挑战性。在这项工作中,我们贡献了关于这个问题的第一个全面和最新的综述。我们检查了各个方面的最新进展,并为未来的研究提出了一些有趣的方向。据我们所知,在社区中还没有任何关于这个主题的广泛审查。我们努力对近几十年来这一问题的发展进行全面的回顾。本文的主要贡献有以下四个方面:1)讨论了MOT系统中的关键问题,包括MOT的制定、分类、关键原则和评价;2)我们不列举个别作品,而是从各个方面对现有的方法进行讨论,将每种方法分为不同的组,并对每组的原理、优缺点进行详细讨论;3)我们检查现有出版物的实验,并总结流行数据集上的结果,以提供定量和全面的比较。通过从不同角度对结果进行分析,验证了该领域的一些基本共识;4)我们讨论了MOT研究的一些问题,以及一些有趣的方向,这些方向将成为未来潜在的研究方向。
关键词:多目标跟踪,数据关联,调查
1、简介
多目标跟踪(MOT)或多目标跟踪(MTT)在计算机视觉中起着重要的作用。MOT的任务在很大程度上被划分为定位多个对象,保持它们的身份,并在给定输入视频的情况下产生它们各自的轨迹。例如,追踪的对象可以是街上的行人[1,2],路上的车辆[3,4],球场上的运动员[5,6,7],或一群动物(鸟[8],蝙蝠[9],蚂蚁[10],鱼[11,12,13],细胞[14,15],蜜蜂[16]等)。多个“对象”也可以被视为单个对象[17]的不同部分。在这篇综述中,我们主要关注行人跟踪的研究。这一规范的潜在原因有三个方面。首先,与我们环境中的其他常见物体相比,行人是典型的非刚性物体,这是研究MOT问题的理想例子。其次,行人视频在大量的实际应用中出现,这进一步带来了巨大的商业潜力。第三,根据本综述收集的所有数据,目前至少70%的MOT研究工作致力于行人。
多目标跟踪是计算机视觉中的一个中级任务,是诸如姿态估计[18]、动作识别[19]、行为分析[20]等高级任务的基础。它有许多实际应用,如视觉监控[21],人机交互[22]和虚拟现实[23]。这些实际需求引起了人们对这个主题的极大兴趣。单目标跟踪(SOT)主要侧重于设计复杂的外观模型和/或运动模型,以应对尺度变化、平面外旋转和照明变化等具有挑战性的因素,与之相比,多目标跟踪还需要解决两个任务:确定对象的数量(通常随时间变化)和保持它们的身份。除了SOT和MOT的共同挑战外,使MOT复杂化的其他关键问题包括:1)频繁遮挡,2)轨道的初始化和终止,3)相似的外观,以及4)多个物体之间的相互作用。为了处理所有这些问题,在过去的几十年里,人们提出了各种各样的解决方案。这些解决方案集中在一个MOT系统的不同方面,这使得MOT研究人员,特别是新手,很难全面了解这个问题。因此,在本工作中,我们对多目标跟踪问题的各个方面进行了综述。
1.1、与其他相关综述的区别
据我们所知,还没有任何关于多目标跟踪主题的全面文献综述。然而,还有一些其他关于多对象跟踪的评论,如表1所示。我们将这些调查分为四组,并强调与我们的差异如下:
- 第一组[24,20,25,22,21]将跟踪作为一个单独的部分进行讨论,而这项工作具体讨论了MOT的各个方面。例如,对象跟踪被讨论为人群建模等高级任务过程中的一个步骤[24,20,25]。类似地,在[22]和[21]中,对象跟踪被视为行为识别[22]或视频监控[21]系统的一部分。
- 第二组[26,27,28,29]致力于一般的视觉跟踪技术[26,27,28]或一些特殊问题,如视觉跟踪[29]中的外观模型。他们的审查范围比我们宽;相反,我们的系统更全面,专注于多目标跟踪。
- 第三组[30,31]介绍并讨论了通用视觉跟踪[30]和特定多目标跟踪[31]的基准测试。他们的注意力放在实验研究上,而不是文献综述上。
- 第四组[32]回顾了随着深度学习的兴起,目标检测的最新进展和发展。这个话题与我们的相关,但与我们的不同。目标检测通过在每一帧中定位潜在目标位置,为基于检测的目标跟踪提供观测数据,而MOT需要将这些观测数据跨多帧关联起来,形成目标轨迹。
1.2、贡献
我们为计算机视觉社区提供了关于MOT问题的第一个全面回顾,我们相信这有助于理解这个问题,它的主要挑战,陷阱和艺术的状态。本文的主要贡献总结如下:
-
我们推导了MOT问题的统一公式,它整合了大多数现有的MOT方法(第2.1节),以及两种不同的MOT方法分类方法(第2.2节)。
-
我们研究了MOT系统中涉及的不同关键组件,每个组件进一步分为不同的方面,并详细讨论了其原理、进步和缺点(第3节)。
-
给出了不同方法在流行数据集上的实验结果,方便以后的实验比较。通过调查所提供的结果,揭示了一些有趣的观察和发现(第4节)。
-
通过总结MOT综述,我们揭示了MOT研究中存在的问题。此外,还讨论了一些悬而未决的问题,以确定潜在的未来研究方向(第5节)。
请注意,这项工作主要致力于回顾关于多目标跟踪进展的最新文献。如前所述,我们还在现有出版物之外的公开数据集上展示了实验结果,以提供最先进的MOT方法的定量视图。对于多对象跟踪的标准化基准测试,我们建议读者参考Leal-Taix´e等人最近的工作MOTChallenge。[31]。
1.3、综述的结构
我们的目标是提供MOT任务中主要方面的概述。这些方面包括MOT的研究现状,建立一个系统需要考虑的所有细节问题,以及如何评估一个MOT系统。第2节描述了MOT问题,包括它的一般公式(第2.1节)和典型的分类方法(第2.2节)。第3节介绍了建模多目标跟踪所涉及的最常见组件,即外观模型(第3.1节)、运动模型(第3.2节)、交互模型(第3.3节)、排除模型(第3.4节)、遮挡处理(第3.5节)和推断方法(第3.6节)。此外,关于评估的问题,包括指标(第4.1节)、公共数据集(第4.2节)、公共代码(第4.3节)和基准测试结果(第4.4节)将在第4节中讨论。在这一部分之后,第5部分总结了社会上存在的问题和对未来MOT研究方向的兴趣问题。
1.4. 外延
在整个手稿,我们表示标量和矢量变量小写字母(例如。, x)和小写粗体字母(例如,
x
\\mathbfx
x)。我们使用粗体大写字母(例如:,
X
\\mathbfX
X)表示一个矩阵或一组向量。对于特定的函数或变量采用大写字母(如X)。表2列出了贯穿本文的符号。除了表中的符号外,可能还有一些符号用于特定的引用。由于这些符号不常用,因此不在表中列出,而是在上下文中进行定义。
2、 MOT问题
首先,我们尝试给出MOT的一般数学公式。然后根据不同的方面讨论其可能的分类。
2.1、问题公式化
在以往的著作中,MOT问题从不同的角度进行了不同的表述,这使得我们很难从高层次的角度来理解这个问题。在这里,我们提供了一个一般的公式,并认为现有的工作可以统一在这个公式下。据我们所知,此前还没有任何针对这一尝试的工作。
一般来说,多目标跟踪可以看作是一个多变量估计问题。给定一个图像序列,我们用 s t i \\mathbfs_t^i sti表示第t帧中第i个物体的状态, S t = ( s t 1 , s t 2 , … , s t M t ) \\mathbfS_t=\\left(\\mathbfs_t^1, \\mathbfs_t^2, \\ldots, \\mathbfs_t^M_t\\right) St=(st1,st2,…,stMt)表示第t帧中所有Mt个对象的状态。我们用 s i s : i e i = s i s i , … , s i e i \\mathbfs_i_s: i_e^i=\\left\\\\mathbfs_i_s^i, \\ldots, \\mathbfs_i_e^i\\right\\ sis:iei=sisi,…,siei表示第i个对象的顺序状态,其中 i s i_s is和 i e i_e ie分别是目标i存在的第一帧和最后一帧, S 1 : t = S 1 , S 2 , … , S t \\mathbfS_1: t=\\left\\\\mathbfS_1, \\mathbfS_2, \\ldots, \\mathbfS_t\\right\\ S1:t=S1,S2,…,St表示从第一帧到第t帧的所有对象的所有顺序状态。请注意,对象编号可能因帧而异。
相应地,遵循最常用的检测跟踪或基于检测的跟踪(DBT)范式,我们使用 o t i \\mathbfo_t^i oti表示第t帧中第i个对象的收集观测值, O t = ( o t 1 , o t 2 , … , o t M t ) \\mathbfO_t=\\left(\\mathbfo_t^1, \\mathbfo_t^2, \\ldots, \\mathbfo_t^M_t\\right) Ot=(ot1,ot2,…,otMt)表示收集到的第t帧中所有 M t M_t Mt个对象的观测值, O 1 : t = O 1 , O 2 , … , O t \\mathbfO_1: t=\\left\\\\mathbfO_1, \\mathbfO_2, \\ldots, \\mathbfO_t\\right\\ O1:t=O1,O2,…,Ot表示从第一个帧到第t个帧所收集到的所有对象的顺序观测值。
多目标跟踪的目标是找到所有对象的“最优”顺序状态,通常可以通过对给定所有观测值的顺序状态的条件分布进行MAP (Maximum a posteriori)估计来建模:
S
^
1
:
t
=
arg
max
S
1
:
t
P
(
S
1
:
t
∣
O
1
:
t
)
.
\\widehat\\mathbfS_1: t=\\underset\\mathbfS_1: t\\arg \\max P\\left(\\mathbfS_1: t \\mid \\mathbfO_1: t\\right) .
S
1:t=S1:targmaxP(S1:t∣O1:t).
不同的MOT算法,从以前的工作,现在可以认为是设计不同的方法来解决上述MAP问题,无论是从概率推断的角度[33,6,34,35,36,37,38,39]或从确定性优化的角度[40,41,42,43,44,45,46,47,48,49,50,17]。
基于概率推理的方法通常使用两步迭代过程来解决Eqn(1)中的MAP问题,如下所示:
Predict: P ( S t ∣ O 1 : t − 1 ) = ∫ P ( S t ∣ S t − 1 ) P ( S t − 1 ∣ O 1 : t − 1 ) d S t − 1 , P\\left(\\mathbfS_t \\mid \\mathbfO_1: t-1\\right)=\\int P\\left(\\mathbfS_t \\mid \\mathbfS_t-1\\right) P\\left(\\mathbfS_t-1 \\mid \\mathbfO_1: t-1\\right) d \\mathbfS_t-1, P(St∣O1:t−1)=∫P(St∣St−1)P(St−1∣O1:t−1)dSt−1,
Update: P ( S t ∣ O 1 : t ) ∝ P ( O t ∣ S t ) P ( S t ∣ O 1 : t − 1 ) . P\\left(\\mathbfS_t \\mid \\mathbfO_1: t\\right) \\propto P\\left(\\mathbfO_t \\mid \\mathbfS_t\\right) P\\left(\\mathbfS_t \\mid \\mathbfO_1: t-1\\right) . P(St∣O1:t)∝P以上是关于多目标跟踪:文献综述的主要内容,如果未能解决你的问题,请参考以下文章
26页综述,99篇参考文献!自动驾驶的3D目标检测技术!中国人民大学出品!