ResNet:视觉跟踪中的应用

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ResNet:视觉跟踪中的应用相关的知识,希望对你有一定的参考价值。

参考技术A SiamFC跟踪方法取得了很大的成功,同时也促进了深度学习在跟踪领域的发展。我们知道SiamFC采用的骨干网络是AlexNet,使用该网络来提取图像特征。AlexNet最早实在图像识别任务中被提出,第一次证实了卷积网络在CV领域的有效性,取得了2012年ImageNet竞赛的第一名。自此以后,许多的深度卷积网络被提出,如VGG,GoogLeNet以及ResNet等,可以看出从AlexNet到ResNet,网络的层数越来越多,也即网络的深度越来越深,这也使得网络的性能越来越强大,取得的成绩也越来越好。由此我们自然的可以想到,使用更加强大的backbone是不是也能改进Siamese跟踪方法的性能呢?本文主要讨论SiamRPN++中的骨干网络ResNet。

可以看到残差块中包含2种映射,一种是identity mapping,指的就是上图中的曲线,另一种residual mapping,指的就是除曲线外那部分,所以最后的输出是y = F(x) + x。identity mapping顾名思义,就是指本身,也就是公式中的x,而residual mapping指的是“差”,也就是y − x,所以残差指的就是F(x)部分。因此网络需要学习的F(x)为输入与目标的差值,故称为残差网络。

原始的ResNet主要应用于图像分类和识别任务,对于空间信息不敏感,而在跟踪任务中,空间信息对于目标的准确定位至关重要,所以要在跟踪任务中使用,需要对ResNet进行改进。

上图为SiamRPN++的网络结构图,其采用的backbone为修改的ResNet-50。原始ResNet-50的stride为32,对跟踪不适合。作者对最后两个block的stride进行了修改,将总stride降低到8,并通过空洞卷积来增加感受野。从上图可以看到,采用了ResNet不同深度卷积层的特征,在每个block输出上添加额外的1×1卷积层来将特征通道降低为256。文章将所有层的padding保留了。

国科大人工智能学院《计算机视觉》课 —运动视觉—视觉跟踪(目标跟踪视觉定位)

一、视觉跟踪 的前奏知识

1. 什么是跟踪:目标跟踪、相机跟踪

2. 目标跟踪的问题分类



3. 目标跟踪的应用:行为分析、虚拟现实、增强现实等

二、目标跟踪:传统跟踪方法、基于神经网络的跟踪方法

1. 运动目标的表示方法:基于点、区域、轮廓、模型的跟踪






2. 传统目标跟踪方法:先表示,再追踪(自底向上《数据驱动》和自顶向下《模型驱动》)


模板匹配法

基于卡尔曼滤波器的跟踪方法:


相关滤波与跟踪(MOSSE)

3. 基于DNN的跟踪方法


三、视觉定位






闭环检测

相机重定位






以上是关于ResNet:视觉跟踪中的应用的主要内容,如果未能解决你的问题,请参考以下文章

国科大人工智能学院《计算机视觉》课 —运动视觉—视觉跟踪(目标跟踪视觉定位)

国科大人工智能学院《计算机视觉》课 —运动视觉—视觉跟踪(目标跟踪视觉定位)

TLD视觉目标跟踪框架原理与实践

视觉跟踪综述

A Review of Visual Tracking with Deep Learning

DIY一个基于树莓派和Python的无人机视觉跟踪系统