视频编码未来简史

Posted 2020-10-17 yf869778412

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了视频编码未来简史相关的知识，希望对你有一定的参考价值。

技术分享图片

首先我们回顾一下视频编码的历史，视频编码起源于广播电视，在很长一段时间里视频编解码的变革主要推动力是来自于广播电视。当然，今天我们看互联网的视频编码是速度越来越快，昨天在ICET2017年世界大会上，ICET的主席还说到以前一个编码是十年更新一版，但是现在从H.265最新进展的来看，可能不到十年。

我们看到这个图，大家可能在小的时候见到过，电视上一个圆盘，这是最主要的电视测试信号，这是1951年第一部数字电视和广播。这个起源是脉冲调制编码，相当于一个脉冲一个象素值，比较早的是用固定的比特，用8比特表示图象电视信号编码传输。这是在广播电视领域。

技术分享图片

到了我们计算机行业，计算机诞生于1946年，但是在计算机上出现图象是到了1957年， Kirsch是第一幅数字图象的创造者，他用他的儿子做了第一章数字图像。2007年是这一幅图象诞生50周年，现在是60周年了，原来的小baby现在也已经是50、60岁的老头了。今天的数字图象，已经到了4K甚至8K。

技术分享图片

到了编码，编码的原理是因为视频里面有很多冗余，包括连续两幅图象出现的时域冗余，还有人眼对高频信息不敏感的感知冗余，还有对感知不敏感的感知冗余。基于这个原理，我现在视频编解码框架早期261开始，一直到今天266快出来了，框架基本上没有太多变化。

技术分享图片

在这个框架里面，我们说它的编码技术可以主要分成三大块。其中一部分是变换编码，刚刚提到通过变换把高频信息把冗余信息去除掉。其中还有空域、时域把冗余信息去除掉。还有预测编码，还有熵编码。这是三大块编码的技术。

如果看三大块的编码技术，实际上是1950年差不多，1946年计算机诞生，1948年是相对信息论，50年代初开始了数字化开始视频数字编码时代。在早期由于计算能力限制，基本上是基于象素去处理，都是机遇统计去处理，像我们看到的huffma编程统计编码技术。计算能力增强了之后现在有基于块的处理。原来只能是基于图象去做，后面才可以基于块的处理，基于块的运动估计、运动补偿，像块大小也可以变化，今天我们看到的H.264、265都是这样。

变换，在70年代末的时候，基本上奠定了我们今天的视频编码行业，也就是说40年来基本上都是处于老瓶新酒的状态。再看后面这是最近几年的情况，当然265也有几年历史了，这是看到这块的进展，包括像变换这块有正象变换。这是视频编码的技术发展。

技术分享图片

再看当下的视频编码技术进展。首先是空间的分辨率，从原来的小图象到标清、到高清、再到超高清。第二，是时间分辨率，从原来的15帧，还有更高的20帧，到120。第三，采样精度，现在的 HDR高动态范围电视，至少是10比特了，但是10比特够不够，将来还会发展，也可能到了20比特。第四，视点数和视场范围，这两个是密切相关的。视频传的不是一路视频，可能是两路，可能是多路，这是视点数。视频的范围，看到的角度，越来越宽，这是视场范围。第五，模型数据。模型数据是包括轮廓对象的刻划。深度数据，还包括特征，对图像内容、对象的认识。还有是点云，完全可以把对象重建出来，远景重现就依赖这项技术。

技术分享图片

模型编码，是标准之外的编码。模型编码这个概念也是比较久了，大概在80年代后期，一直到90年代中期的时候，曾经有一个很大的呼声，模型编码是第二类编码，但是今天为止我们发现二代始终没上台，始终在用原来的二代。模型编码的概念很光，可以把原基于象素的编码都可以涵盖，也是模型，只不过它的模型是基于信号模型。当然我们熟悉的是对象模型，这个概念很新，但是它也没有用起来，也是有很多问题，在这里提到场景的解析，人和场地的解析。

更进一步，包括对人这块，对人的身体、人的脸可以更精度的建模型，这对于编码尝试也很多。所以这对应表格上是在早期过去编码历史也有反应，包括基于人脸模型，甚至人脸哭和笑，只要是做好模型，将来传很少的数据就可以还原。

当然最后边的发展最后还提到智能编码，这是综合了信号与视觉的模型，基于学习的视频编码。

技术分享图片

再看看视频编码的发展趋势。4K越来越流行。我们看到互联网广播，包括最近广东也开会提出下一步要提出4K电视广播技术，我们北京也提出2022年冬奥会是8K的试播。上图可以对比一下，有测试8K，左上角的高清多么小。当然8K视频不只是分辨率的问题，还有配套的技术，包括采样精度、帧率和声音。

技术分享图片

这是关于压缩的发展趋势是8K。但是我们说的8K它并不只是分辨率的问题，下面还有象素、更高精度。这是10亿象素的相机拍摄的一张照片，图片一直放大，可以清楚的看到“太和殿”三个字。

技术分享图片

刚刚说的主要是分辨率的增长。分辨率上去之后，并不是说要传一个更大的视频，对于后端来说，意味着可以可以提供更多的视频应用形式。其中一个是AR和VR。现在4K做VR的视觉效果还是有问题的，还是需要更高的视频带宽和视频精度去传输。模型编码，对AR也有更大的提升作用。

技术分享图片

刚刚讲了这么多，如果看挑战，一个是说数据量的压缩，依然是比较严峻的。8K、4K、HDR这样的视频，原始数据级是60Gbps。

技术分享图片

第二个挑战是，从压缩到分析。刚刚讲到视频编码的第一个推动作用是广播电视，看到更好的视觉质量。但是到今天为止，世界上好多视频，比如监控，并不是人要去看的，是计算机要去看的。我们没有人去盯监控视频，希望计算机来能够完成分析。目前的压缩是面向存储和传输，降低带宽占用，但是分析的支持相当弱。所以，很多视频分析的研究是在压缩完之后进行。但是，随着现在前期分析识别技术越来越强，很多视频分析开始在视频编码时就进行智能分析、智能编码。

技术分享图片

最新进展我也快速过一下，一个是最关心的JEM266，高通推动新一代的发展，最早是在MPEG会议提出，提出HM—KTA—1.0，到2020年制定新的标准。

技术分享图片

JEM的性能有很大提升。客观性测试上，编码效率已经提升了30%，复杂度增加了12倍，这对编码实现还是很有压力的。这是刚刚出来的雏形，后端肯定会在复杂度和性能之间的做更多优化做更多技术。

技术分享图片

最近已经有几家平台基于JEM做了一些尝试，可以看到他们的测试结果。在SDR、HDR、360video三个平台，可以看到基本上原来的码率下一半的时候可以达到同等的要求。这个对8K很有吸引力。

技术分享图片

从固定精度运动矢量到自适应精度运动矢量，离预测中心比较近是，用高精度，比较远时用低精度，以此来节省运动矢量编码的码率。

技术分享图片

第二个是关于划分，划分模式太多，大家在选择起来比较头疼。

技术分享图片

再说一下360，基本上是把投影拼接，拼接完了之后再压缩编码。在这个环节里面最重要的是投影数据，投影数据决定你要压缩什么、丢失什么，对整个VR的体验影响很多。这是很重要的方向。

技术分享图片

从图象这块我们可以看到全景视频投影，从立方体、八面体、二十面体、球体，JEM里面有十几种投影方式。

技术分享图片

对于质量评价不一样，当然这种质量评价也是影响你编码工具的设计，这儿有一个WSPSNR的概念因为它是从球面投到平面上去，有些数据丢了，如何计算WSPSNR很难，当然还有很多其他的方式。

技术分享图片

刚刚讲到JEM的技术。像光场这块原来是聚焦一个图象，现在是把不同方向的内容光线记录下来，一遍是利用相机阵列，或者微透镜成像。

技术分享图片

广场图像压缩，JPEG比较积极，它是在2017年1月份发布光场图象压缩平台。

技术分享图片

在这里我们做了初步探索，对光场图象里面有很多问题，每一个小透镜采集的光和图象不一样，中间有很多差异。弄完之后实际上每个滤波就是一个视频，每一个小透镜就是一个小图象，这些差异需要处理。

技术分享图片

再后来数据采集就是点云采集，把人脸模型变成动画场面。后面我们要把三维场景传输过去，这是下一步场景三维模型建模的技术发展方向。在这块MPE也是比较迅速。

技术分享图片

在今年4微分发布的CFP，大概10月份确立第一个验证平台，这个是类似于AR、VR可以把动态模型用三维模型传输过去。

技术分享图片

这块是序列编码框架，把编码数据包装到每一个盒子里面，当然对于点云的数据要复杂的多一些。

技术分享图片

这是对比的效果图，可以看到这是原始数据，一帧电晕可能是136MB，我们看到压缩一千倍、一万倍，信息会丢掉不少。

技术分享图片

下面讨论关于未来，本来简史我们很熟悉，包括人类简史、未来简史，包括赫拉利讲到人类简史说三个革命，一个是认知革命，因为认知革命会制造工具，还有一个是农业革命可以养活更多的人，因为有个更多的人，才有人力去搞科学革命。

在视频编码方面，我把认知革命改成“采集革命”。视频采集的深度、点云、以及压缩感知，Nyquist采样定理等对采集有很大影响。采集是编码的源头，采集会影响到编码的框架设计。

第二个计算革命，刚刚说农业可以创造更多的粮产，可以养活更多的人。在视频编码领域，能编码，是因为计算能力的支持。计算的初期是基于像素、后来是基于块，现在有更多更复杂的计算。早期是CPU，后来GPU，现在有NPU。这些计算能力很强大，但是视频编码目前还没有利用上这些计算能力。目前正在探索，利用这些计算能力现在在探索基于神经网络的编码，就是想利用这种更高效的计算能力。

第三个是科学革命，我认为对于编码来说是认知革命。认识视频里的内容，对内容有所识别。这里面包括简单的视觉特征，高级一点是深度学习，更高级是类脑计算学习。这个过程是支持未来视频编码的方向。

这三者相辅相成，采集有新东西了，计算能力要跟上。计算越强会支持采集。同样对于认知也是，计算能力更强也会加强认知。所以这三者是相互支撑的关系。

技术分享图片

我们下面看采集革命，输出的时候是离散的数字信号，这里面最有名的就是奈奎斯特采样定理，是要过采样。4K、8K那么大，采集到的数据有很多是冗余的，是为了重建。

技术分享图片

但是这种采集，与人眼的处理差别是很大的。这里引入了压缩感知，采样时强调稀疏采样。

技术分享图片

这里面一个直接的应用，e是原图象。采样时通过系数采样，只采样20%的象素，采集到的是a，再基于稀疏图象的原理还原成e。数据量大大降低。

技术分享图片

信号采集在时间上和幅度上都是离散的，这就是离散信号。但是离散信号带来的问题就是数据量增加特别多。这都是过采样的方式。

技术分享图片

但是人脑的采集过程是，一开始是光刺激发生，通过视网膜光电转换和编码，最后通过视网膜认出来。从图像出来到人脑把这个图像认出来，需要经过160ms。肯定今天的采集技术是比人眼采集频率高很多，但是智能分析识别上人要比设备高很多。

技术分享图片

人脸采集不一样，上面是模拟信号，下面是数据信号，实际上我们人眼被称之为神经脉冲编码，是指当人看到一个东西如果没有发生变化，是不发放神经脉冲的，相当于不传信号。所以，人脑的功耗是特别的。如果人脑的功耗也很高，就会把大脑烧掉。所以，人是靠很低功耗的计算，来实现分析识别。

技术分享图片

这是一个很低功耗的图象传感器，区别于传统的CMOS、CCD，做阵列刷新。这是一种事件驱动的采集，对于事件的发生分析，精度要求是很高效。

技术分享图片

计算革命我也有一些思考.一个是我们知道前端计算，对于视频编解码都有专门的芯片，比如早期的C-Cube的处理器，VCD、DVD都使用这种处理器。最近有很强的ARM处理器可以支持4K，Tesla在使用的H.265编解码器，可以处理8K。最新的寒武纪深度学习神经网络处理器。

技术分享图片

这里我们还是从变换说起，变换是视频编码很重要的模块，最早的变化是基于8x8 DCT。DCT的好处是当信号相关性很强，相关系数达到0.95的时候，DCT就是最优的变换。但是实际信号差别很大，如果图像一旦有边缘，DCT就变得不高效，因为相关性降低了。这是就提出了基于方向的变化，排列一下，分别进行相关性变换。基于这种原理，扩展出了DST，离散正弦变化。到了正弦变化之后还不算完，在H.265发展过程开始通过寻来找KLT最优变换。在H.266提出了更新的做法，原来是离线训练，H.266中使用在线训练，通过前面一两帧的数据在线训练。

技术分享图片

1987年，神经网络编码提出。最近，Google开始引发关于神经网络编码的革命。这么多年的发展，神经网络编码的原理，基本上还是想通的。

技术分享图片

上文讲的是神经网络可以进行更多的计算，那么这里给一个例子，进行这么多计算，作用在哪？左边是缩倍率示意图，右边是编码复杂度示意图，我们关注最后面两个，一个是JPEG和Residual（基于神经网络的编码）的GRU和CPU。压缩倍率，JPEG和Residual的都是15倍。在计算复杂度上，如果把JPEG当做是1，那么Residual在GPU上进行的编码复杂度是3200，在CPU上的是26万。

技术分享图片