基于深度学习的参考帧生成
Posted Dillon2015
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于深度学习的参考帧生成相关的知识,希望对你有一定的参考价值。
本文来自提案JVET-T0058和JVET-U0087,该方法通过插帧的方法生成虚拟参考帧用于帧间预测。整个模型由几个子模型组成,分别进行光流估计、补偿和细节增强。
整体架构
整体架构如Fig.1所示,在视频编码过程中DPB中存着用于运动估计的参考帧,根据GOP结构当前帧有一个或多个前向、后向参考帧。提案中默认使用POC距离当前帧最近的两个参考帧生成虚拟参考帧,如Fig.1中当前帧POC是5,则使用POC为4和6的帧生成参考帧。生成的虚拟参考帧会被放入DPB用于参考,虚拟参考帧的POC设置为和当前帧相同。为了防止影响时域MVP中根据POC距离的MV缩放过程,虚拟参考帧的MV都设为0且被用作长期参考帧。在提案中,当前帧解码完成后虚拟参考帧就从DPB中移除。
对于高分辨率序列(4K或8K)由于资源受限不能对整帧直接使用神经网络处理,此时假设虚拟参考帧被分为多个区域,每个区域单独使用网络生成,然后将这些区域拼成参考帧。
网络模型
一般的视频插帧大都利用了光流估计和补偿,一般使用双向光流方法,然后通过一个线性模型将两个光流合成一个。提案中仅使用单光流模型。
如Fig.2,首先通过光流估计模型生成光流(输入为POC距离最近的两个参考帧),然后通过backward warping过程处理光流,处理后的光流和两个参考帧再通过fusion过程合成中间帧。中间帧会通过细节增强模型提升质量,细节增强模型包含两部分,PCD(Pyramid, Cascading and Deformable)用于时空优化和TSA (Temporal and Spatial Attention)用于提高重要特征的attention。
实验结果
感兴趣的请关注微信公众号Video Coding
以上是关于基于深度学习的参考帧生成的主要内容,如果未能解决你的问题,请参考以下文章