端到端图像编码和VVC的结合

Posted Dillon2015

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了端到端图像编码和VVC的结合相关的知识,希望对你有一定的参考价值。

本文来自JVET-AA0063的提案《A hybrid codec using E2E image coding combined with VVC video coding》

简介


提案提出了一种混合编码方法,对视频I帧使用端到端的图像编码器编码,P和B帧使用VVC编码,如Fig.1,其中P和B帧内的intra块还是使用VVC编码。基于神经网络的端到端图像编码器的效率已经超越传统的图像编码器,例如JPEG-AI的编码效率比VVC编码I帧高20-30%,但是视频比图像更复杂因此该提案只对I帧使用神经网络处理,P和B帧还是使用VVC。在VTM14.0上,RA配置下该方法在Y分量上的BD-Rate达到4.1%。

混合框架实现


该框架基于VTM14.0实现,VTM代码基本保持不变,对于I帧其对应的non-VCLU写入码流的方式不变,I帧对应的VCLU写入码流的方式如下:

  1. 通过python脚本调用端到端图像编码器。

  2. 图像编码器对I帧编码,并将重建图像写入临时yuv文件。

  3. VVC编码器从日志文件收集图像编码器的bit cost信息。

  4. VVC编码器读临时yuv文件并写入dpb。

  5. 通过步骤3、4,VVC能计算图像编码器生成图像的psnr和bit cost。

端到端图像编码器


这个E2E图像编码器是JPEG AI的变种,训练时损失函数使用MSE。模型输入针对420格式,而不是RGB444。模型结构如Fig.2,Y和UV独立编码,仅在处理流程的某些部分Y会作为UV的辅助信息(蓝色箭头)。绿色框内是熵编码网络。

实验结果

VTM14 RA配置的结果如表1,其中QP=32,37,42,47,选择这些QP是为了使VVC的I帧码率和JPEG AI对齐。可以看见,对class A1、A2和B增益很大,因为图像编码器训练集都是高分辨率图像所以在高分辨率序列上表现更好,这也解释了class C和D增益为什么小。由于训练集不包含屏幕序列,所以class F损失较大。

表1的结果是所有I帧都使用E2E AI编码(无条件,不需要mulit-pass),也可以根据内容自适应决定是否对I帧使用AI编码,不过这需要mulit-pass,结果如表2。

主观对比

Fig4和Fig5是序列CatRobot使用QP 42编码的POC为31的帧,可以提案的方法右下角的兔子主观质量更好,而且POC31远离第一个I帧这也说明I帧质量的提升可以传导到后面的帧。

感兴趣的请关注微信公众号Video Coding

以上是关于端到端图像编码和VVC的结合的主要内容,如果未能解决你的问题,请参考以下文章

VVC的部署情况

ICASSP2021:端到端的图像编码方法

端到端视频编码:DVC

Ali266

视频Latif Ladid|将BSV区块链的端到端模型与互联网IPv6相结合

端到端QoE优化实践,视频播放体验优化,视频评测体系构建,基于大数据的VMAF质量计算...