VCIP2021:基于神经网络的双向预测blending过程

Posted 2022-12-04 Dillon2015

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了VCIP2021:基于神经网络的双向预测blending过程相关的知识，希望对你有一定的参考价值。

本文来自VCIP2021论文《Neural Network based Inter bi-prediction Blending》

介绍

双向预测最终会产生两个MV和两个参考块，这两个参考块通过加权最终形成一个预测块，这个过程即为blending。双向预测能减少编码失真、亮度变化、块内小运动引起的误差。

VVC中提出了多种工具来提升双向预测过程的表现，例如BCW技术对两个参考块分别赋予一个权重，最终的预测块由两个参考块加权生成，相比在HEVC中进行双向预测时预测值等于前向预测值和后向预测值的均值，BCW的加权预测效果更好，同时为了降低复杂度BCW使用一组固定权重-1/4,3/8,1/2,5/8,5/4。另一个技术是BDOF，基于光流的概念计算出来的运动修正值来调整4x4子块的双向预测值。还有一个技术是几何划分GPM，每个像素的权重取决于它到边界的距离。最后还有一个技术是CIIP，它将帧内预测和帧间预测结合了起来。

基于神经网络的双向预测blending

简介

论文提出使用神经网络来进行双向预测时两个参考块的blending过程。网络模型通过全连接神经网络构成，输入是两个参考块，输出是最终的预测块，网络结构如Fig.1所示。

应用条件：

该方法不需要在码流中传输额外信息，但是需要一些条件限制其是否开启。由于该方法和BDOF不兼容，所以论文中关闭了BDOF。且该模型仅在亮度分量上训练，对于色度分量还是使用原始的blending方法。为了平衡复杂度，设置了三个档次的开启条件，如表1所示。

实验结果

训练数据集使用BVI-DVC和UVG数据集，使用STAD作为loss 函数，使用Hadamard矩阵进行变换。具体信息如表4所示。

实验平台使用VTM11.0，QP=22，27，32，37，42。

模型大小比较

首先比较网络大小的影响，使用RA配置，从表5和表6可得，大模型的gain增加了0.5%但是解码复杂度增加了40%

不同配置比较

表7和表8比较了不同配置下的效果，

LDB配置

一个有趣的现象，该工具在LDB配置下也会有增益，如表9，在LDB配置下两个参考帧都来自前面，而BDOF在LDB配置下效果不好。

该工具在VTM上相比于BDOF的效果如表10，BD-Rate增益2.2%以上。

感兴趣的请关注微信公众号Video Coding

以上是关于VCIP2021:基于神经网络的双向预测blending过程的主要内容，如果未能解决你的问题，请参考以下文章

VCIP2020：不同尺寸块基于神经网络的帧内预测

数据预测基于matlab双向长短时记忆（BiLSTM）数据预测含Matlab源码 1824期

注意力机制 | CNN-BiLSTM-Attention基于卷积-双向长短期记忆网络结合注意力机制多输入单输出回归预测（Matlab程序）

数据预测基于matlab双向长短时记忆BiLSTM（多输入单输出）数据预测含Matlab源码 1826期

LSTM预测基于matlab鲸鱼算法优化双向长短时记忆BiLSTM航空发动机寿命预测（多输入单输出）含Matlab源码 2288期

回归预测 | MATLAB实现BO-CNN-BiLSTM贝叶斯优化卷积双向长短期记忆网络数据回归预测