VCIP2020:不同尺寸块基于神经网络的帧内预测

Posted Dillon2015

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了VCIP2020:不同尺寸块基于神经网络的帧内预测相关的知识,希望对你有一定的参考价值。

本文来自VCIP2020论文《Fully Neural Network Mode Based Intra Prediction of Variable Block Size》

论文提出使用神经网络模型( neural network modes,NM)完全取代传统的帧内预测方法,不再需要通过邻域像素插值得到预测值,而是直接将相邻块作为网络输入得到预测块。(1)针对不同尺寸块使用不同模型,对于较小的块如4x4和8x8块使用全连接神经网络FNN,对于较大的块如16x16和32x32块使用CNN。(2)对于每个传统帧内预测模式都使用一个预训练网络模型取代它。

基于NN的帧内预测

HEVC帧内预测模式

HEVC的帧内预测有35种模式,对于模式的编码采用MPM(MPM有3个候选项),首先使用1比特表示最优模式是否在MPM中,如果在MPM中则使用1个或2个比特编码其在MPM中的索引,否则使用5比特编码(在剩余32种模式中)。如表1所示。

网络结构分析

对于4x4和8x8的块使用FCN,如图Fig.1,首先将邻域块拉平为一维向量((4xN+8)x8)个节点。然后通过4个FC层,最后得到NxN的块。其中每层的节点数取决于编码增益和复杂度,编码增益用PSNR度量,复杂度用FLOPs度量,结果如表2。基线模型使用512个节点,然后逐次减半。发现当节点减为256和128时编码损失很小,减小为64时4x4的块损失0.21dB,8x8的块损失0.34dB。所以最终选择128个节点。

对于16x16和32x32块使用CNN,如Fig.2。为了保留空域信息,上方3个块,左侧2个块分别送入两个卷积通路。卷积通路的组成如表3,对16x16和32x32块分别使用4个和5个卷积层,激活函数为PReLU,F为16。每个通路使用降采样来获取潜在信息,然后拉平为一维向量。两个一维向量连接在一起送入FC层,FC层输出节点数是输入层的1/5。然后reshape成二维向量,通过反卷积层上采样为原始尺寸NxN。

编码结构

一共有35个NM,根据以下步骤选择最优的NM。1)根据SATD cost选择几个候选项,4x4和8x8块的候选项数量是8,其他尺寸是3。2)MPM也加进候选列表。3)通过比较RD cost选择最优的NM。

表1是HEVC帧内模式传输的方法,它是根据概率设定的,是最优模式的概率越高码字越短。下面式中BM表示最优模式,MPM中模式的码字长度比Non-MPM短,在MPM中MPM0的码字长度比其他模式短1比特。

公式(1)(2)是针对HEVC传统帧内模式。为了确保该模式传输方法也适用于35个NM,分析RaceHorses序列(QP=32)的最优模式概率分布,如表4。

可见最优模式在MPM中的概率是59.9%,大于在Non-MPM中的概率。最优模式是MPM0的概率又大于是MPM1和MPM2的概率。

在构建MPM时,当MPM0和MPM1不同时,MPM2选择Planar、DC和垂直模式之一。

训练

训练过程可以看作是从参考块R到原始块Y的回归过程,网络参数是theta。损失函数如下,由MSE和正则项组成。

lambda=0.0005,M=16。

训练集为New York city library,每个图像使用4个QP(22,27,32,37)编码。训练过程如下,

实验结果

实验平台采用HM16.9,每条序列使用AI配置且只编码第一帧,QP={22,27,32,37}。结果如表5,YUV的BD-rate增益分别为3.55%,3.03%和3.27%。

感兴趣的请关注微信公众号Video Coding

 

 

以上是关于VCIP2020:不同尺寸块基于神经网络的帧内预测的主要内容,如果未能解决你的问题,请参考以下文章

基于神经网络的帧内预测和变换核选择

AVS3帧内预测

AVS3帧内预测

VCIP2021:基于神经网络的双向预测blending过程

VCIP2021:基于神经网络的双向预测blending过程

视频编解码 — 帧内预测