视频目标检测

Posted 哈哈哈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了视频目标检测相关的知识,希望对你有一定的参考价值。

TCNN 

  • 静态图像中目标检测(rcnn,fast rcnn, faster rcnn, yolo, ssd 等)
  • 上下文信息
    • 使用图像检测算法将视频帧当做独立的图像来处理并没有充分利用整个视频的上下文信息。虽然说视频中可能出现任意类别的目标,但对于单个视频片段,只会出现比较少的几个类别,而且这几个类别之间有共现关系(出现船只的视频段中可能会有鲸鱼,但基本不可能出现斑马)。所以,可以借助整个视频段上的检测结果进行统计分析:对所有检测窗口按得分排序,选出得分较高的类别,剩余那些得分较低的类别很可能是误检,需对其得分进行压制(如图2)。经过MCS处理后的检测结果中正确的类别靠前,错误的类别靠后,从而提升目标检测的精度。
  • 运动传播:将当前帧中的location和置信度信息传递给相邻帧,(光流向量)
    • 单帧检测结果存在很多漏检目标,而相邻帧图像检测结果中可能包含这些漏检目标。所以我们可以借助光流信息将当前帧的检测结果前向后向传播,经过MGP处理可以提高目标的召回率。如图1所示将T时刻的检测窗口分别向前向后传播,可以很好地填补T-1和T+1时刻的漏检目标。
  • 基于Tracking 重新计算得分   tublet 
      • 使用图像目标检测算法获取较好的检测结果;
      • 从中选取检测得分最高的目标作为跟踪的起始锚点;
      • 基于选取的锚点向前向后在整个视频片段上进行跟踪,生成跟踪轨迹;
      • 从剩余目标中选择得分最高的进行跟踪,需要注意的是如果此窗口在之前的跟踪轨迹中出现过,那么直接跳过,选择下一个目标进行跟踪;
      • 算法迭代执行,可以使用得分阈值作为终止条件。

      得到的跟踪轨迹既可以用来提高目标召回率,也可以作为长序列上下文信息对结果进行修正。

结合光流,实现特征图的帧间传播和复用。

Deep Feature Flow

  • 在关键帧进行特征图提取,比较耗时。所以间隔进行,非关键帧通过传播得到。
  •  

F 为两帧得到的光流信息,光流计算较慢,所以在(deep learning for video saliency detection)中直接将两帧图像送入网络学习时域信息,而不是计算光流信息。

 

Flow-Guided Feature Aggregation for Video Object Detection

  • 光流网络(flownet)预测相邻帧和该帧之间的motions

 

t 帧得到的光流特征不明显,而t+10, t-10 的明显,用motion-guided spatial warping预测帧之间的motion,将这些特征融合。将融合后的feature map fed to detection network得到最后的检测结果

 

tracking---TLD

tracking learning detection:TLD是对视频中未知物体长时间跟踪的算法。

TLD算法主要由三个模块构成:追踪器(tracker),检测器(detector)和机器学习(learning)

常用的方法有两种,一是使用追踪器根据物体在上一帧的位置预测它在下一帧的位置,但这样会积累误差,而且一旦物体在图像中消失,追踪器就会永久失效,即使物体再出现也无法完成追踪;另一种方法是使用检测器,对每一帧单独处理检测物体的位置,但这又需要提前对检测器离线训练,只能用来追踪事先已知的物体。

        追踪器的作用是跟踪连续帧间的运动,当物体始终可见时跟踪器才会有效。追踪器根据物体在前一帧已知的位置估计在当前帧的位置,这样就会产生一条物体运动的轨迹,从这条轨迹可以为学习模块产生正样本(Tracking->Learning)。
        检测器的作用是估计追踪器的误差,如果误差很大就改正追踪器的结果。检测器对每一帧图像都做全面的扫描,找到与目标物体相似的所有外观的位置,从检测产生的结果中产生正样本和负样本,交给学习模块(Detection->Learning)。算法从所有正样本中选出一个最可信的位置作为这一帧TLD的输出结果,然后用这个结果更新追踪器的起始位置(Detection->Tracking)。
        学习模块根据追踪器和检测器产生的正负样本,迭代训练分类器,改善检测器的精度(Learning->Detection)。

 

光流法:

梯度下降的优化方法,空间运动物体在观察成像平面上的像素运动的瞬时速度。是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。

其计算方法可以分为三类:

(1)基于区域或者基于特征的匹配方法;

(2)基于频域的方法;

(3)基于梯度的方法;

光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”。

以上是关于视频目标检测的主要内容,如果未能解决你的问题,请参考以下文章

视频目标检测

图像检测基于帧差法实现视频运动目标检测matlab源码

Opencv项目实战目标检测:自动检测出现的所有动态目标

目标检测基于matlab GUI背景差分算法视频运动物体跟踪含Matlab源码 1915期

基于yolov3的行人目标检测算法在图像和视频中识别检测

视频监控 智能交通 数据集(目标检测跟踪)