论文笔记Spatial Transformer Networks

Posted 有来有去-CV

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记Spatial Transformer Networks相关的知识,希望对你有一定的参考价值。

参考文献**Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in Neural Information Processing Systems. 2015: 2017-2025.

摘要

卷积神经网络(CNN)已经被证明能够训练一个能力强大的分类模型,但与传统的模式识别方法类似,它也会受到数据在空间上多样性的影响。这篇Paper提出了一种叫做空间变换网络(Spatial Transform Networks, STN),该网络不需要关键点的标定,能够根据分类或者其它任务自适应地将数据进行空间变换和对齐(包括平移、缩放、旋转以及其它几何变换等)。在输入数据在空间差异较大的情况下,这个网络可以加在现有的卷积网络中,提高分类的准确性。

——————
由于我之前的工作部分涉及到人脸对齐,所以看到这篇Paper异常激动。总觉得能用它做点什么。

算法介绍

1. 算法总流程

STN 主要可以分为三个部分:1)localisation network. 2) grid generator. 3) sampler. (中文我翻译不准确,大家意会下)。localisation network用来计算空间变换的参数 θ,grid generator则是得到input map URHxWxC到 output map 各位置的VRHxWxC对应关系 Tθ, sampler根据input map 和 对应关系,生成最终的output map. 流程图如图所示:

技术分享

1.1 Localisation Network

它的作用就是通过一个子网络(全连接或者卷积网,再加一个回归层),生成空间变换的参数θθ 的形式可以多样,如需实现2D仿射变换,θ 就是一个6维(2x3)向量的输出。

1.2 Parameterised Sampling Grid

假设U (可以是输入图片,也可以是一般的feature map)每个像素的坐标为(xsi,ysi)V 的每个像素坐标为(xti,yti), 空间变换函数 Tθ 为仿射变换函数,那么 (xsi,ysi)(xti,yti) 的对应关系可以写为:

(xsiysi)=Tθ(Gi)=Aθ(xtiyti)

当然,Aθ也可以有其它形式,如3D仿射变换,透射变换等。

1.3 Differentiable Image Sampling

在计算得到 Tθ 后,就可以由以下公式 U 得到 V 了(省略推导公式若干,只放上最终形式):

Vci=nHmWUcnmmax(0,1?|xsi?m)|max(0,1?|ysi?n|)

在求得 V 后,当然少不了上述公式对 U, xs , ys的求导,以便根据loss进行网络的后向反馈:

?Vci




以上是关于论文笔记Spatial Transformer Networks的主要内容,如果未能解决你的问题,请参考以下文章

论文笔记Spatial Transformer Networks

论文笔记 Spatial contrasting for deep unsupervised learning

论文笔记 Traffic Data Reconstruction via Adaptive Spatial-Temporal Correlations

论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

论文笔记:Graph WaveNet for Deep Spatial-Temporal Graph Modeling

论文笔记:Graph WaveNet for Deep Spatial-Temporal Graph Modeling