Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记
Posted Unsunshine_Bigboy_?
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记相关的知识,希望对你有一定的参考价值。
前言
借鉴了图像分割和识别网络那边的Unet运用到图像恢复领域上,主要包括图像降噪、运动去模糊、失焦模糊和去雨四个任务。
创新点:
①提出了一种新的基于Transformer结构的自注意力模块,类似于SWIR。
②提出了一种可以学习的多尺度调制器嵌入到解码器中。
网络结构
整体网络结构其实就是Unet,但是里面的模块不一样。
首先,输入时一个3×H×W的图像,然后经过一个3×3的卷积核和LeakyReLU激活函数组成的卷积层提取特征,即为图中的Input Projection,输出为C×H×W的特征层。然后进入网络前半部分,编码器,是由K个LeWin Blocks组成的(实验结果显示K=4结果较好),每一层都是先经过LeWin模块后再经过一个下采样层,通道数翻倍,长宽减半,与解码器后面对应相同大小的特征进行叠加。
LeWin Transformer模块
这个模块在论文中说的目的是为了增强局部特征,减少计算量。这个计算量是相对整幅图像进行注意力计算,只不过将图像分成很多子图像进行注意力计算。但是,本质上来说其实就是局部注意力机制,将图像分成M×M个子图像,然后分别对每个子图像内部进行注意力计算,存在的问题其实是子图像和子图像之间没有信息交互。其实SWIN Transformer 就是在做这样一件事,但是还加上了移动的窗口,所以效果会更好。
Locally-enhanced Feed-Forward Network (LeFF)
这个是文中说LeWin模块另外一个创新点,用到了这样的一层网络结构,具体原因其实论文并没有讲的特别清楚,可能大部分也是参照之前的网络进行设计的。
Multi-Scale Restoration Modulator
在Lewin Transformer模块中,在MSA的输入前还加入了一个可学习的调制器,M×M×C(对第一个Lewin模块来说的大小)的向量,类似于一个共享权重,也是可学习的参数。具体有什么作用,论文也没有给详细的说明,只是实验结果是这么来的,论文最后笼统地总结了一下:在解码器的每个阶段添加调制器可以灵活调整特征图,从而提高恢复细节的性能。
实验
图像降噪
运动去模糊
失焦模糊
去雨
总结
Uformer总体来说在各个图像恢复的任务上都达到了非常不错的效果,也可能是因为集合了之前模型研究出来一系列套路,其实这种套路应用在任何计算机视觉任务都不会差。比如说,编码器-解码器结构、U型结构、transformer应用以及局部注意力,给我的感觉是有点像集大成者的感觉,把之前的经验总结到了一起,然后做出了这个模型应用在了图像恢复这个领域。文中很多结构的设计也没有给说明或者原因,这是问题之一。而且从今天看来,其实还有待改进,比如如果将LeWIN改成SW效果会不会更好。
以上是关于Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记的主要内容,如果未能解决你的问题,请参考以下文章
Applied catalysis. A, General.的基本信息
Life Raft on Ships: A General Overview
PAT (Advanced Level) 1019. General Palindromic Number (20)