ICME2021:基于CNN的HEVC帧内编码块快速划分

Posted Dillon2015

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ICME2021:基于CNN的HEVC帧内编码块快速划分相关的知识,希望对你有一定的参考价值。

本文来自ICME2021论文《CNN-BASED DEPTH MAP PREDICTION FOR FAST BLOCK PARTITIONING IN HEVC INTRA CODING  》

在HM中,通过递归调用RDO来选择最优的划分模式,整个过程计算复杂度很高且硬件实现不友好。论文使用CNN为HEVC的帧内编码生产深度图来进行快速划分。

论文提出使用深度图来表示CTU的划分,如Fig.1(b)深度图是一个8x8的矩阵,矩阵中每个元素代表64x64CTU的每个8x8块的深度。从Fig.1可以发现,深度图可以反映图像局部纹理的复杂度。论文设计了一个CNN模型来预测深度图,模型以CTU的亮度分量作为输入。得到深度图后CTU的划分结构就确定了,编码器可以跳过RDO过程直接处理每个CU。整个算法的流程如Fig.2所示。

深度图预测网络

本文设计了一个基于CNN的深度图预测网络,网络结构如Fig.3所示,网络以CTU的亮度通道作为输入,输出一个8x8的深度图。

网络的第1部分包括5个卷积层和3个池化层。然后是最大池化操作,pooling kernel尺寸分别我2,4,8,再加上未池化的特征共得到4个特征,反映了不同尺度的特征,这部分称为多池化层。3个池化的特征上采样后和为池化特征连接送到下一层。网络接下来的部分包含4个卷积层。除了输出层外所有的卷积层都使用ReLU。

损失函数

实验结果

数据集

数据集中的视频序列来自CDVL,分辨率包括{3840x2160,1920x1080,1280x720},还有部分DIV2K中的图像,分辨率为1920x1080。

考虑到视频的时域相关性,训练序列每隔40帧取1帧。同时对DIV2K中的图像降采样到960x640和448x320以获得低分辨率数据。通过这种方式增加训练集的多样性。

所有的序列和图像使用HM16.20的AI配置编码,QP取{22,27,32,37}。编码过程中收集深度图,同时提取序列和图像的亮度分量并划分为64x64的块。最终数据集对4个QP包含764800个训练样本和78500个测试样本。

实验结果

由表3实验结果可知,在BD-Rate损失2.02%情况下,本文算法可以节省65.55%的编码时间,其中编码时间包括了CNN网络执行的时间。

感兴趣的请关注微信公众号Video Coding

以上是关于ICME2021:基于CNN的HEVC帧内编码块快速划分的主要内容,如果未能解决你的问题,请参考以下文章

ICME2021:基于机器视觉的RD模型

ICME2021:基于VVC的角度加权预测

HEVC2HM-16.7编码一个CU(帧内部分) 2.帧内预测各种模式实现

ICME2021:实时VVC软件解码器

HEVC视频编码技术

Codecs系列HEVC标准:简介和编码框架分析