基于非对称全局卷积神经网络的遥感图像识别方法

Posted 2021-04-06 林业工程学报

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了基于非对称全局卷积神经网络的遥感图像识别方法相关的知识，希望对你有一定的参考价值。

遥感图像的地物种类识别在土地资源管理、生态系统监测和森林状态评估等领域中起着基础性作用，该任务的主要目的是通过对图像特征的理解和分析，判断出图像中所包含的主要目标类别信息，如农作物、沙滩或森林等。

为提高遥感图像地物种类识别的精度和效率，模式识别和机器学习等方法被广泛应用，并且取得了令人满意的效果。

近年来，随着深度学习技术在计算机视觉领域的发展，使用深度卷积神经网络(convolutional neural network，CNN)处理二维自然场景图像已经成为当下最热门的研究课题之一。

相比传统的手工特征和浅层学习特征，深度学习特征包含了特定的语义信息，同时具有可判别能力强、适用范围广、可学习能力凸出等优势。广大农林科技工作者也将深度CNN特征用于遥感图像的理解和分析任务中，如遥感图像地物分类、遥感图像质量评价分析等。

尽管经典的深度CNN模型在一定程度上可以提升二维图像的识别精度和效率，然而由于传统卷积结构存在局部性的特点，即单个卷积模块每次只能提取到输入图像(特征图)的局部信息（具有局部感受野）。因此，经典的深度CNN模型很难在同层网络结构中获取到输入图像(特征图)的全局信息和长远依赖关系，而其已被证明是图像识别的关键因素。虽然通过多个卷积模块的叠加可以在一定程度上增大同层卷积结构的局部感受野，但是这种简单堆砌的结构往往会造成深度CNN模型计算效率低下和难优化等缺点。

为更容易地获取输入图像(特征图)的全局信息和长远依赖关系，Wang等提出了全局卷积神经网络(non-local convolutional neural network, Non-local CNN)，并在二维自然场景图像识别任务中取得了理想的效果。

全局卷积神经网络

Non-local CNN主要基于全局卷积(non-local convolution, NC)结构，其首先计算输入图像(特征图)中每个查询值(Query)和所有关键值(Key)之间的相似对应关系，并使用获得的相似度作为每个Query的全局上下文表示；然后通过相似度的加权总和将所有Query和键(Value)聚合后作为加权特征；最终加权后的特征和残差连接的和作为NC的输出。

Non-local CNN 已经被证明为是一种有效的全局上下文信息获取机制，且被成功应用于目标追踪、语义分割和图像生成等任务中。

虽然Non-local CNN可以被用来提取图像(特征图)的全局信息和长远依赖关系，但NC结构本身需要较大的计算量，尤其对于一些高分辨率的遥感图像，其所耗费的计算代价是巨大的。例如，对一张H×W×C（H和W表示对应的高度和宽度、C表示维度）的图像(特征图)，NC结构所需要的时间和空间复杂度均为O[(H×W)×(H×W)]。

因此，直接将NC用于遥感图像的识别任务中是不可取的。考虑到部分种类遥感图像内部存在重复像素块和目标的特性，南京林业大学徐风，孙万砚认为在实际遥感图像识别任务中无须逐像素计算Query和键值对(Key-value)的对应关系，只需部分关键的Key和Value对应的像素即可。

在本课题组的研究中，为更高效地获取遥感图像的全局信息和长远依赖关系，课题组提出了一种非对称的全局卷积 (unsymmetrical non-local convolution, UNC)结构，并应用于深度CNN网络中, 形成非对称的全局卷积神经网络(unsymmetrical non-local convolutional neural network, UN CNN)。

首先对经典的全局卷积结构中Key-value进行下采样，以降低其对应的图像(特征图)分辨率；然后将Query和经过下采样后的Key-value逐像素相乘，获取输入图像(特征图)的全局上下文表示和加权特征；最后将加权特征和残差连接相加，作为UNC的输出。和经典的NC结构相比，UNC的时间和空间复杂度降低为O［(H×W)×(H×W/r²)］，其中，r为空间采样率。本课题组在RSSCN7、UCML、WHU-RS19和AID4种遥感图像地物识别数据集上进行实验，验证课题组研究方法的有效性和可行性。

1 数据处理与实验方法

1.1 实验数据

1.2 数据预处理

1.3 实验方法

2 实验与结果

2.1 实验设置

所有实验基于PyTorch深度学习平台，该平台具有良好的扩展性、模块性和高效等特点，深受工业界和学术界欢迎，目前已经是深度学习研究领域应用最广泛的框架之一。程序在Think Station P320图形工作站上搭建，并使用4块GeForce GTX 1080 Ti图形处理器结合CUDA框架对图像处理流程进行加速。所有深度学习模型均首先在ImageNet数据集上进行预训练，然后在具体的遥感图像数据集上微调。实验输入图像尺寸为256×256像素，模型优化使用随机梯度下降优化器，其动量设置为0.9，初始学习率设置为0.01，下降率设置为每1 000次迭代下降0.1，总迭代次数为50 000次，批量大小设置为16。为保证实验结果的稳定性，将每组实验随机运行5次，获取的模型在测试集上的平均准确率(accuracy，Acc)作为实验的主要评价指标。此外，为验证本研究方法的高效性，将模型的浮点运算量(floating point operations，FLOPs)作为另一项评价指标。

2.2 消融实验

对于复杂的深度神经网络模型，通过消融实验能快速实现对模型超参数和实验模块的准确定位，即寻找到CNN模型的最佳状态。在本研究中，通过在RSSCN7数据集上的消融实验，主要可找出不同下采样方案和采样率对实验结果的影响。

2.2.1 采样方案对识别准确率的影响

全局最大池化(global max pooling，GMP)和全局均值池化(global average pooling，GAP)是深度学习模型中最常用的2种全局池化函数，可用于图像和特征图的下采样操作中，以达到降低分辨率的目的。因此，在第1组实验中，主要探讨不同池化函数对识别准确率的影响。分别使用GMP和GAP对UNC结构的Key - value对应的特征图进行下采样，采样后的输出尺寸为8×8。在RSSCN7数据集上的实验结果如表1所示。

基于非对称全局卷积神经网络的遥感图像识别方法

从表1中可以看出，GMP和GAP均可提升模型的准确率，对验证集的准确率可分别提升至96.89%和97.02%，对测试集的准确率可分别提升至96.32%和96.63%，因此，可以验证UNC结构的有效性。此外，相比GMP模型，GAP对模型准确率的提升效果更明显。在模型计算量方面，相比经典的Non - local模型，GMP和GAP均可减少28.5G的FLOPs。因此，可以验证UNC结构的高效性。在下述实验中，均采用GAP作为UN CNN模型的下采样方案。

2.2.2 采样率对识别准确率的影响

除了采样方案，采样率也是影响模型性能的重要因素之一，本节实验主要探讨采样率对UNC结构的影响。经GAP下采样后，特征图的分辨率由原来的 H × W × C 变为 h × w × C ，因此，采样率可表示为 r = H / h = W / w 。 r 对UN CNN模型准确率的影响在RSSCN7数据集上的实验结果见表2。

基于非对称全局卷积神经网络的遥感图像识别方法

由表2可得出：1）UNC结构的采样率越低，模型参数量越少，越接近于传统的深度CNN模型参数量；2） r =0.5时（输出分辨率为8×8），模型在验证集和测试集上的准确率最高，分别达到97.02%和96.63%。在模型效率方面，UNC结构最多可减少24.53%的参数以及整体49.1%的浮点运算量。

2.3 实验结果

在最后的实验中，采用GAP作为UN CNN模型的下采样方案，其采样率设置为0.5。分别在RSSCN7、UCML、WHU - RS19和AID测试集上的实验结果如表3所示。和当前在这些遥感图像地物识别数据集上对应的最好识别方法相比，UN CNN均可取得较高的准确率，进一步验证了本研究方法的有效性和普适性。

基于非对称全局卷积神经网络的遥感图像识别方法

3 分析与讨论

为更加直观地比较本研究提出方法的有效性，对深度CNN结构第4个阶段之后的遥感图像特征图所对应的Grad - CAM进行可视化，结果如图3所示，越明亮的区域表示该区域对图像种类识别的贡献越大。从图3中可以看出，基于Non - local CNN的深度特征对应的Grad - CAM特征响应区域更大，表明有更多的区域参与该图片的识别，可以证实NC结构的有效性。此外，相比Non - local CNN和本研究提出的UN CNN模型对应的特征，UN CNN对应特征响应区域的Grad - CAM并未减少，表明本研究模型可以在保证参与识别区域面积的前提下，降低模型的时间和空间复杂度。

结论

为解决全局卷积模块引入计算量过大的问题，针对部分种类遥感图像存在重复像素块的特点，提出了一种非对称的全局卷积神经网络模型。在4种公开遥感图像数据集上的实验结果验证了方法的有效性和高效性。未来会考虑将UN CNN模型应用于其他遥感图像任务中，如高分辨率遥感图像的语义分割、遥感图像地物目标检测等。此外，在计算Query和Key-value对应关系时，现有方法将不同Key-value对应特征图中的像素块视作同等重要，但实际上，不同Query和同一个Query对应的Key-value像素对于模型最终识别起着非同等重要的作用。因此，笔者也考虑基于自适应卷积模块的非对称全局卷积，尤其在处理遥感图像时，首先挑选出具有代表性的像素块，从而减少模型的计算量，进一步提升模型的性能。

该文发表于《林业工程学报》2020年第6期。

引文格式：

徐风,孙万砚.基于非对称全局卷积神经网络的遥感图像识别方法[J].林业工程学报,2020,5(6):137-142.
XU F,SUN W Y.Remote sensing scene recognition using unsymmetrical non-local convolutional neural network[J].Journal of Forestry Engineering,2020,5(6):137-142.

▼

更多精彩推荐，请关注我们

▼

把时间交给阅读

图片来源于网络

排版：Rachel

以上是关于基于非对称全局卷积神经网络的遥感图像识别方法的主要内容，如果未能解决你的问题，请参考以下文章

设计一个卷积神经网络模型用于遥感图像的场景分类

武汉大学CVEO小组：一种基于卷积神经网络（CNN）的高分辨率遥感影像分类方法

武汉大学cveo小组：基于全卷积神经网络的单张遥感影像去雾

用卷积神经网络提取图像特征

毕业设计题目：基于深度学习的动物识别 - 卷积神经网络机器视觉图像识别

基于多通道卷积神经网络的数字图像识别植物病害