基于神经网络的时域处理

Posted 2022-11-27 Dillon2015

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了基于神经网络的时域处理相关的知识，希望对你有一定的参考价值。

本文来自提案JVET-V0090 《Neural network based temporal processing》，提出使用神经网络进行时域处理以增强输出图像的细节和预测图像的质量。

简介

在上篇文章中介绍了通过生成虚拟参考帧来提升运动预测质量的方法，但是参考帧的增加会提高计算复杂度。文中提出的时域处理模型不需要增加参考帧，通过对重建图像的处理既能提升输出图像的细节又能提高预测精度。它包含两个模型，第一个模型在输出前对解码图像进行处理，第二个模型对参考图像进行处理。

整体架构

Fig.1是整个架构，灰色格子里是两个模型。整个处理过程分为两个阶段：基于NN的重建、基于NN的帧间预测。第一个阶段是在deblocking后对重建图像使用神经网络处理，使得解码后的图像细节更丰富，输出的图像主观质量更好，模型的输入包括一个前向参考帧和一个后向参考帧，模型处理后的图像用于输出和放入DPB用于参考。第二个阶段对DPB中的参考图像进一步处理以提高帧间预测效果。

两个模型的结构是相同的，但是分别训练。模型包括两部分，PCD (Pyramid, Cascading and Deformable)用于提取时域和空域信息，TSA (Temporal and Spatial Attention)用于提高重要特征的注意力。第一个模型的损失函数是重建像素和原始像素的差值，第二个模型的损失函数是参考像素和下一帧像素的差值。Fig.2是两个模型的对比。

在PCD模块中，前后、后向参考帧和当前帧作为输入生成特征，然后计算当前帧的可变卷积的pixel offset map。TSA模块时域注意力机制会在embedding space计算帧的相似性，对更相似的帧提供更多注意力。

实验结果

实验平台选择VTM11，模型训练和推导的参数信息如下，

实验结果如下，

感兴趣的请关注微信公众号Video Coding

以上是关于基于神经网络的时域处理的主要内容，如果未能解决你的问题，请参考以下文章