论文笔记之:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

Posted The Blog of Xiao Wang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记之:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking相关的知识,希望对你有一定的参考价值。

 

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

CVPR 2016

 

  本文提出了一种新的CNN 框架来处理跟踪问题。众所周知,CNN在很多视觉领域都是如鱼得水,唯独目标跟踪显得有点“慢热”,这主要是因为CNN的训练需要海量数据,纵然是在ImageNet 数据集上微调后的model 仍然不足以很好的表达要跟踪地物体,因为Tracking问题的特殊性,至于怎么特殊的,且听细细道来。

  目标跟踪之所以很少被 CNN “攻占”,主要是因为很难收集海量的训练数据;此外,基于传统方法以及手工设计的特征的确也取得了不错的效果。最近的基于CNN的网络设计来解决跟踪问题,主要是在大型分类数据集上进行预训练,如:imageNet,然后将其 transfer 到跟踪问题上来。尽管也取得了明显的提升,但是仍然效果不是非常明显,因为 分类问题跟踪地定位问题 本来就是两个区别很明显的问题,即:

  预测物体的标签 VS 定位任意的目标

  为了更好的探索 CNN 在 visual tracking上的表达能力,很有必要在大型数据上进行 visual tracking 的训练,涉及到广泛的目标和背景的组合。然而,基于视频序列的确是具有挑战性,因为其不同的特性。注意到,不同的序列涉及到目标物体具有不同的类别标签、移动模式以及外形,跟踪算法在每一个特定序列上的挑战也不同,例如:遮挡,变形,轻度光照变化,运动模糊等等。训练 CNNs 也是非常困难的,因为有些物体有时候被当做前景,有时候被当做背景,因为不同的视频中的需要。由于序列中的变化和不一致性,我们相信基于标准的分类任务的普通学习算法是不适合的,其他的方法来捕获和序列无关的信息应该能提供更好的表达。

  基于此事实,我们提出了一种新颖的 CNN 结构,即: Multi-Domain Network (MDNet),从多个标注的视频序列中,来学习物体的共享的表示,协助进行跟踪,其中每一个视频看做是一个单独的 domain。所提出的网络具有单独的分支,即: domain-specific layers for binary classification. MDNet 上的每一个 domain 都是单独训练的,并且每次都迭代的更新共享层。利用该策略,我们

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

以上是关于论文笔记之:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking的主要内容,如果未能解决你的问题,请参考以下文章

论文笔记之:Dueling Network Architectures for Deep Reinforcement Learning

Deep Learning论文笔记之CNN卷积神经网络推导和实现(转)

论文笔记之:MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching

论文笔记之: Deep Metric Learning via Lifted Structured Feature Embedding

Deep Learning论文笔记之CNN卷积神经网络推导和实现

论文笔记之:Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation