业内视频超分辨率新标杆，快手&大连理工研究登上CVPR 2022

Posted 2022-04-22 QbitAl

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了业内视频超分辨率新标杆，快手&大连理工研究登上CVPR 2022相关的知识，希望对你有一定的参考价值。

转载整理自快手音视频技术
量子位 | 公众号 QbitAI

现在，视频超分辨率算法又迎来新突破。

一篇最新登上CVPR 2022的论文，从一种新的视角，统一了视频超分辨率中的低分辨率和高分辨率的时序建模思路。

论文提出一种新的视频超分辨率框架，以较小的计算代价，充分利用了低分辩和高分辨率下的时序互补信息，以此带来更多细节和纹理的超分辨率结果。

研究在多个公开数据集上达到了SOTA效果，也为后续的视频超分辨率研究提供了新的灵感。

文章地址：https://arxiv.org/abs/2204.07114
代码地址：https://github.com/junpan19/VSR_ETDM

视频超分辨率难在哪？

超分辨率是计算机视觉领域的经典技术，利用图像的自然结构信息实现图像从低分辩率到高分辨率的映射。随着深度学习的发展，卷积神经网络通过强大的拟合能力，在图像超分辨率场景取得了叹为观止的效果。

于是人们开始将目光转向更难的视频超分辨率任务，并在视频领域得到大规模的落地实践，如在快手App的服务端、移动端等业务都已广泛应用。视频超分辨率的难点在于时序信息的利用，即如何利用多帧图像序列间的互补信息来产生超分辨率所需的纹理细节。

现有的时序建模方法大致分为两个方向。

一个是基于光流^[1,2,3]、可变形卷积^[4,5]、3D卷积^[6,7]的方法。这类方法会在低分辨率层面显性或者隐性地建模前后帧的时序信息，然后经过融合网络得到重建的高分辨率结果。由于这些建模的结构大多基于神经网络，并且较为复杂，有时难以直接插入到任意的视频框架中。

另一个时序建模的思路是基于递归隐状态累积的方法^{[8,9,10,11,12]}，通过不断在隐层累积历史特征来建模整段视频序列的互补信息。

这种方案最早采用了单向的循环卷积网络，即只利用当前帧与前一帧和历史累积的结果作为网络的输入，融合得到超分辨率结果。该方式的好处是在一定的信息累积后，仅用较小的网络结构和运算成本便可取得可观的收益。但它的问题是前几帧的信息累积不充分，导致初始几帧的超分辨率效果都会受到损失。在实际场景中需要“预热”一段时间后才可以被使用。

双向循环卷积网络是缓解信息分配不平衡的一个解决方案，它将视频的全部信息分别进行正向和反向的传播，最终结合正向和反向的信息生成超分辨率结果。本文深入分析了这种方法，并发现双向的传播策略也面临两个问题。

（1）信息利用的灵活性。由于双向的传播策略通常是利用前一个和后一个的时序特征，所以当这些时刻发生遮挡或者视差变换时，误差也会累积到隐层特征中，对当前时刻的超分产生错误结果。

一个直观的解决方案是直接将多个时刻的信息传播到当前时刻，但较大的运动差异反而会影响融合的效果。近期有一些方法，采取对预测结果进行运动补偿来弥补，但无论是光流还是可变形卷积都会引入庞大的计算开销。

（2）实时性。由于双向循环卷积网络的每次运算都要导入所有图像序列的处理，导致难以在实况直播这种因果系统中应用。

此外，无论是在相邻帧的融合方式，还是在特征传播上，现有的视频超分辨率框架仍没有统一的处理方案，往往需要应对各自的时序建模的对象来单独设计策略，这也引发了本文的思考，是否存在一种统一的策略，来对低分辨率图像和高分辨率结果进行时序建模？

面对上述问题，本文提出用相邻帧的时间残差图来统一低分辨率和高分辨率的时序建模视角。

在低分辨率空间下，输入帧的时间残差图可以用来区分这两帧间中的低变化和高变化区域，不同的区域所包含的互补信息应当在重建中被区分对待。在高分辨率空间下，时序残差图可以将不同时刻的预测结果以较小的运算代价传播到任意过去和未来的时刻。

值得一提的是，所提出的视频超分辨率框架（ETDM）虽然是单向循环网络的传播结构，但在时间残差图的帮助下，当前时刻的初步超分辨率结果可以被多个过去和未来的结果进一步增强。

图1展示了ETDM在学术公开集Vid4上的处理效果，超过了众多已经发表的视频超分辨率方案，同时也展示了一张图片从320×180超分到1280×720所需的速度。ETDM方法以单向的循环卷积网络结构超过了大部分单向、双向、多帧融合的方法，达到了更好的效果与速度的平衡。

△图1 ETDM方法与其他SOTA方法在效果和速度上的对比

具体如何实现？

如图2所示，本文提出的视频超分辨率结构（ETDM）是一个基于单向结构的循环卷积网络，即隐层特征只采用正向的传播方式。对于每个时刻，网络的输入分为两个层面：一个是低分辨率空间下的图像序列（前一帧It-1、当前帧It和后一帧It+1）；另一个是高分辨率空间下的预测结果。

ETDM的核心是提出用相邻帧的差分图来统一这两个层面下的时序建模方式。这里定义当前帧为参考帧，时间差分图为参考帧与相邻帧的差，它既可以表示为前后帧图像的像素变化差异，也可以被认为是参考帧到邻近帧的转换“桥梁”。接下来将从这两方面具体介绍时间差分图的应用方式。

△图2 所提出的ETDM网络结构

在低分辨率空间下的显性时序建模

由于视频帧在获取时具有连续性，存在冗余和非冗余的时序信息，因此相邻帧有着不同程度的互补信息。为了验证这一点，采用图3描绘了参考帧相对邻近帧在不同区域的像素变化程度，不同的颜色表示不同的强度。

△图3 相邻两帧每个像素点的差异程度

可以发现，相邻帧中存在像素点运动差异变化程度较小和较大的区域。这种差异程度具有一定启发性，是否能用时间残差图将邻近帧拆分为低变化（LV）和高变化（HV）的区域。

直觉上，LV区域的表征变化细微，那么相邻帧的互补信息可能来源于微小的细节；而HV区域的整体差异较大，可以从不同方面提供更粗尺度的互补信息。

但是，时间差分图是非常稀疏的。为了得到完整的划分区域，我们先对它用3×3进行滤波和图形化方法处理，然后将其变为二值化的时序差分图并作用到原图上，得到LV和HV区域，如下所示：

由于自然图像的平滑性，LV可能对应帧间小运动的区域，而HV可能对应大运动的区域。

因此在融合方式上，本文选择用参数共享但感受野不同的融合网络。具体来讲，为HV分支的前几层网络分配了更大的空洞率，从而捕捉更大的运动信息。

在高分辨率空间下的显性时序建模

残差图的另一层含义是参考帧到邻近帧的转换“桥梁”。于是，除了重建当前时刻的超分辨率结果外，我们还会重建当前时刻到过去和未来的高分辨率时序残差图。

如上图2所示，我们在特征提取网络后增加了3个Residual Head （Spatial-Residual Head, Past-Residual Head 和 Future-Residual Head）。它们分别预测当前时刻的超分辨率结果，当前到过去的时序残差图的超分辨率结果，以及当前到未来的时序残差图的超分辨率结果。

通过利用所预测的时序残差图，当前、未来或者过去时刻所预测的超分辨率结果便可以传播到当前时刻，并为当前时刻提供更多互补信息。

于是，我们提出了时序往返优化机制。对于当前时刻而言，过去时刻和未来时刻的结果可以按照下面的方式传播到当前时刻：