选介基于CNN的方向响应网络模型
Posted CCF多媒体专委会
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了选介基于CNN的方向响应网络模型相关的知识,希望对你有一定的参考价值。
【CCF多媒体技术专委会新技术选介17-03期】
编者按:随着深度学习技术在计算机视觉各个领域的成功应用,以CNN为代表的网络结构取得了长足的进步和发展。基于CNN结构的新型网络模型层出不穷,如VGGNet, GoogLeNet, ResNet等。但受限于CNN结构的设计,基于CNN的模型在处理局部和全局图像旋转的能力仍然有限,这篇文章通过对网络中卷积核进行主动旋转,并借鉴SIFT描述子思想将学习到的特征进行旋转不变编码,得到了不错的结果。
今天给大家介绍的是一个引入了旋转不变操作的方向响应网络ORN[1]。传统的深度卷积神经网络能够从图像中学习到有效的特征表示,但是其对于局部和全局图像旋转的处理能力仍然有限。这篇文章提出主动旋转滤波器(ARFs),对卷积核进行主动旋转,并产生位置和方向明确编码的特征图。它的结果可以很轻松地应用于图像分类等领域,具有较好的可解释性和拓展性。
图1. 方向响应网络结构模型
关于网络结构旋转能力的研究,最近的研究通常构建并行或者独立的网络结构[2][3]。文献[4]证明图像的空间变换可以同时反应在特征图和卷积核上,这也构建了ORN的理论基础。最新的研究工作试图对传统的卷积核进行旋转,以获得旋转不变特征应用于纹理和图像分类[5][6]。
STN[2]介绍了一个附加网络模块,该模块可以利用定位子CNN结构来求解转换矩阵,从而依据该矩阵对特征图进行处理。STN提供了空间变换的一般框架,但是如何通过CNN精确地估计复杂空间变换参数,仍然没有被很好地解决。而ORN通过对网络中的卷积核进行主动旋转,生成主动旋转滤波器(ARFs),从而产生位置和方向明确编码的特征图。一个ARF作为一个虚拟滤波器组,包含了滤波器自己和滤波器不同版本的旋转。在反向传播阶段,一个ARF从全部的旋转滤波器中收集误差并对参数进行更新。ORN网络可以产生类内旋转不变深度特征,同时保持分类任务的类间区分度。由ORN产生的定向响应(oriented response)同时可以被用于图像和目标的方向估计。
主动旋转滤波器
传统的CNN结构中并不具有旋转不变性的描述能力,那么如何对CNN结构进行改进,使得网络学习到的特征具有旋转不变性,可以更好的应对图像局部和全局的旋转呢?ORN结构通过对传统CNN卷积层中滤波器主动旋转,生成如图2所示的主动旋转滤波器 (Active Rotating Filter)。ARF通过两个步骤进行生成:首先对滤波器进行坐标旋转;然后对滤波器每一个位置的描述子进行方向旋转,最终获得旋转后的滤波器。
图2. 主动旋转滤波器结构
通过对CNN中卷积层滤波器的扩充,网络可以对图像的旋转产生响应,但是此时网络中的特征图并不具有旋转不变性。为了使得网络学习到的特征具有旋转不变性,需要对网络学习到的方向特征信息进行编码。这里作者借鉴SIFT特征描述子思想,提出了两种方向特征编码策略——ORAlign,ORPooling。ORAlign求取网络中最后一层卷积层特征图在每一个方向响应的最大值,并将该最大值作为最大响应,该响应的方向作为特征的主方向;ORPooling方式则对最后一层卷积层特征图进行简单的最大值求解,从而聚合到各个方向上特征的响应。经过该步骤编码后的特征具有较强的旋转不变性,提高了网络对于图像旋转的处理能力。
实验结果
ORN网络结构在MNIST[7]及其旋转变种数据集上与state-of-the-art结果做了对比试验,可以看出比之前的工作STN[2]和TIPooling[3]都要好一点。
表1. 与各state-of-the-art结果的对比,可以看出error rate有了不小的降低
在使用ORN网络结构之后,网络对于旋转样本的分类性能有了明显提升。
图3. 在MNIST数据集上网络特征可视化结果。(a) 采用传统CNN结构;(b) 采用STN网络结构;(c) 采用ORN-8(None)网络结构;(d) 采用ORN-8结构,使用ORAlign特征编码结构。很明显,该文的结果具有更好的分类性能
最令人注意的是,ORN方法从网络滤波器设计出发,可以显著提升传统CNN学习到特征的旋转不变描述能力。因此,ORN结构可以同STN结构进行很好结合,显著提升网络的旋转不变描述能力。
图4. 方向估计。(a) 是从MNIST-half-rot数据集中选取的小部分样本;(b)-(d) 采用不同网络结构旋转矫正后的结果。从图中可以观测到,ORN同STN结构结合的网络结构具有非常优秀的方向矫正能力
图5. MNIST-rotated 数据集上训练获得的特征图
[1] Zhou, Yanzhao, Qixiang Ye, Qiang Qiu, and Jianbin Jiao. Oriented Response Networks. CVPR, 2017.
[2] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. NIPS, 2015
[3] D. Laptev, N. Savinov, J. M. Buhmann, and M. Pollefeys. TI-POOLING: transformation-invariant pooling for feature learning in convolutional neural networks. CVPR, 2016.
[4] T. Cohen and M. Welling. Group equivariant convolutional networks. ICML, 2016.
[5] F. Wu, P. Hu, and D. Kong. Flip-rotate-pooling convolution and split dropout on convolution neural networks for image classification. Arxiv preprint, 2015.
[6] D. M. Gonzalez, M. Volpi, and D. Tuia. Learning rotation invariant convolutional filters for texture classification. Arxiv preprint, 2016.
[7] C. Liu, K. Nakashima, H. Sako, and H. Fujisawa. Handwritten digit recognition: benchmarking of state-of-the-art techniques. Pattern Recognition, 2003.
以上是关于选介基于CNN的方向响应网络模型的主要内容,如果未能解决你的问题,请参考以下文章
基于深度神经网络的3D模型合成Transformer vs. CNN
小白学习kears教程四Keras基于数字数据集建立基础的CNN模型