论文笔记之：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

Posted 2020-07-27 The Blog of Xiao Wang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文笔记之：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking相关的知识，希望对你有一定的参考价值。

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

CVPR 2016

　　本文提出了一种新的CNN 框架来处理跟踪问题。众所周知，CNN在很多视觉领域都是如鱼得水，唯独目标跟踪显得有点“慢热”，这主要是因为CNN的训练需要海量数据，纵然是在ImageNet 数据集上微调后的model 仍然不足以很好的表达要跟踪地物体，因为Tracking问题的特殊性，至于怎么特殊的，且听细细道来。

　　目标跟踪之所以很少被 CNN “攻占”，主要是因为很难收集海量的训练数据；此外，基于传统方法以及手工设计的特征的确也取得了不错的效果。最近的基于CNN的网络设计来解决跟踪问题，主要是在大型分类数据集上进行预训练，如：imageNet，然后将其 transfer 到跟踪问题上来。尽管也取得了明显的提升，但是仍然效果不是非常明显，因为分类问题和跟踪地定位问题本来就是两个区别很明显的问题，即：

　　预测物体的标签 VS 定位任意的目标

　　为了更好的探索 CNN 在 visual tracking上的表达能力，很有必要在大型数据上进行 visual tracking 的训练，涉及到广泛的目标和背景的组合。然而，基于视频序列的确是具有挑战性，因为其不同的特性。注意到，不同的序列涉及到目标物体具有不同的类别标签、移动模式以及外形，跟踪算法在每一个特定序列上的挑战也不同，例如：遮挡，变形，轻度光照变化，运动模糊等等。训练 CNNs 也是非常困难的，因为有些物体有时候被当做前景，有时候被当做背景，因为不同的视频中的需要。由于序列中的变化和不一致性，我们相信基于标准的分类任务的普通学习算法是不适合的，其他的方法来捕获和序列无关的信息应该能提供更好的表达。

　　基于此事实，我们提出了一种新颖的 CNN 结构，即： Multi-Domain Network (MDNet)，从多个标注的视频序列中，来学习物体的共享的表示，协助进行跟踪，其中每一个视频看做是一个单独的 domain。所提出的网络具有单独的分支，即： domain-specific layers for binary classification. MDNet 上的每一个 domain 都是单独训练的，并且每次都迭代的更新共享层。利用该策略，我们

以上是关于论文笔记之：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking的主要内容，如果未能解决你的问题，请参考以下文章