创建沉浸式 VR 视频体验

Posted 边缘计算社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了创建沉浸式 VR 视频体验相关的知识,希望对你有一定的参考价值。

来源:SIGGRAPH 2020
内容整理:桂文煊
在沉浸式视频中,主要挑战之一是以一种合理的方式对其进行压缩,即可以以合理的比特率进行流式传输,并实时解码和渲染。本文开发了一种压缩多平面图像(MPI)的新方法,可以在 PC 端上实时播放,并为用户提供无需头戴设备的沉浸式观看视频体验。

目录

  • 沉浸式视频的背景以及挑战

  • Multi Plane Images(MPI)

  • 对MPI进行压缩

    • 压缩测试方案

    • 将RGBA图像转化到YUV4:2:0

    • 采用同一个RGB纹理图

    • 采用同一张alpha图

    • 压缩小结

  • 未来工作

沉浸式视频的背景以及挑战

传统的视频内容往往只能给用户提供一个固定视角的画面,其视频背景给用户的感觉就如一张贴图一般,缺乏真实性。为了为用户提供一个更好的视频观看体验,沉浸式视频如今已经成为了研究人员们新兴的研究方向。在本文中,沉浸式视频指代的是视频内容随着人体头部的移动也相应进行移动的视频。对于沉浸式视频的传统做法是利用多个相机来拍摄不同角度的视频内容。理想情况下,无限个相机可以提供各个角度的视频,但受限于设备价格与设备摆放的问题,无限相机显然是不可能的。在实际操作中,往往采用固定数量的相机来获取多视角的图像。但当人的观察角度处于两个相机之间时,视频内容需要根据已知相机作为参考。获取场景中的深度图是常见的一种处理办法。其通过参考相机的参数以及其拍摄的参考图像,将图像从相机空间转换至世界空间,从而获取最终的输出图像。这种方法不仅计算复杂,而且对于某些像素点来说,其深度值是不定的。该工作采取了一种比较新颖的新视角合成方法:Multi Plane Images (MPI)

Multi Plane Images(MPI)

这种方法一般适用于处于同一水平基线的左右视角图像作为输入的情况。其利用一个深度神经网络模型推断出 MPI 的场景表达,并且重建出最终所要生成的图像。示意图如图1所示。

图1 MPI合成新视角示意图

MPI场景表达方式包含多个平面,每个平面d编码两种信息,一种是RGB颜色图像,另一种是透明度alpha图,因此整个MPI可表示为RGBA图像的集合,如图2所示。(作者采用了32个平面)

图2 MPI实例

强大的GPU算力对于静态图像的渲染是非常轻松的,因而对于MPI方法中新视角的合成是非常容易实现的。但其中存在着带宽问题。在30fps下, 一个32层、1920×1080分辨率的MPI场景需要占据8GB每秒的带宽,这对于绝大多数用户显然是难以承受的。因而对于MPI必须要进行压缩。

对MPI进行压缩

压缩测试方案

压缩是为了使MPI能以合适的比特率进行流式传输,但其对于最终输出的图像质量不能有太大的损失。作者用以下办法对压缩中存在的损失进行测试。

图3 测试内容

测试内容如图3所示。作者采用4x4的相机阵列,并且标记了一些相机之间的中点c0、c1、c2、c3,如图4所示。作者对这些位置中得到图像的PSNR值进行测试,并且最终结合比特率进行了比较。

图4 相机阵列以及参考点示意图

将RGBA图像转化到YUV4:2:0

由于绝大部分的用户所使用的电子设备都已经具备了硬件解码器,所以作者采取了一种标准的视频压缩算法,例如HEVC。压缩后得到的结果如图5所示。

图5 32YUVA测试结果

可以看出压缩后的PSNR值仍然非常高,在图像质量只有较小的降低,但其在比特率上有着1.8倍的降低。

采用同一个RGB纹理图

在进行了比较经典的YUV视频压缩后,32个YUV图和32个alpha图仍然有比较重的传输负担。考虑到32张RGB纹理有着很强的一致性,作者在此保持32个alpha图不变的情况下,采用了原始相机图片作为32个平面统一的RGB纹理。再度压缩后得到的结果如图6所示。

图6 1YUV-32A测试结果

可以看出在几个参考点上PSNR值只有很小幅的降低,而在相机位置上质量甚至有所增加,这是由于所选取的RGB纹理图是原始相机图片。而在比特率上又进行了32倍的大幅度降低。

采用同一张alpha图

由于alpha图的稀疏性,可以模仿对于RGB纹理的操作,将32张alpha图编码为一张alpha map,示例如图7所示。

图7 alpha map示意图

再度压缩后测试结果如图8所示。

图8 1YUVA测试结果

从结果上可以看出图像质量上有着很小幅的降低,但在比特率上则再度进行了压缩。

压缩小结

作者将32层平面的RGBA图像一步一步压缩为单层的YUVA图像,示意图如图9所示。

几种压缩的结果可由图10直观表示。虽然32YUVA与1YUV-32A能在图像质量上超过1YUVA,但是其需要非常大的比特率进行传输,而在较小的、合适的比特率下(例如20Mbit/s),1YUVA的图像质量远超于其他两种。

故这种压缩方法能在保持图像质量可接受的情况下,大幅降低所需要的比特率,其使得MPI的存储以及传输能够更加灵活。

未来工作

1、能够具有更加丰富的测试内容 

2、跨相机压缩 

3、提升alpha map的质量

附上演讲视频:

以上是关于创建沉浸式 VR 视频体验的主要内容,如果未能解决你的问题,请参考以下文章

PC VR游戏的CPU性能分析与优化

Facebook推出VR版远程办公应用,白板共享手势/键盘追踪等技能解锁沉浸式开会体验...

VR沉浸体验的要求

沉浸式视听体验:全景声技术是如何实现的?

李松南:智能全真时代的多媒体技术——关于8K沉浸式和人工智能的思考

第六章 大数据,6.3 突破传统,4k大屏的沉浸式体验(作者: 彦川小丛)