HDR技术

Posted Z_shsf

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDR技术相关的知识,希望对你有一定的参考价值。

HDR, high-dynamic range

HDR(High-Dynamic Range)相比普通的图像,可以提供更多的动态范围和图像细节,根据不同的曝光时间的LDR(Low-Dynamic Range)图像,利用每个曝光时间相对应最佳细节的LDR图像来合成最终HDR图像,能够更好的反映出真实环境中的视觉效果。

传统SDR(标准对比度)最高亮度只有100nit,画面中高于100nit的部分将被失真(丢失),最低调试为0.1nit,画面中低于0.1nit的部分将被丢失,而HDR技术可以拓宽最高亮度到几千nit,最低亮度到0.0005nit,丰富高亮度和低亮度部分的细节。

主流HDR技术
HDR10 Media Profile, 简称HDR10 它是由消费者技术协会2015年8月27日宣布的开放标准,不需要支付任何版权费。这个标准要求必须使用宽色域 Rec.2020 色彩空间,10bit 色深,以及 SMPTE ST 2084(PQ)图像传输功能,但它的数据元全部是静态的,简单来说就是每一帧所输出的 HDR 图像效果是一样的。目前所有支持 4K HDR 的设备都必须达到这个标准。LED屏幕亮度达到1000尼特或者更高,黑位则要低于0.05尼特,OLED屏幕亮度至少需要600尼特以上,黑位低于0.0005尼特。色彩深度必须达到10bit,能达到以上指标即为HDR10。

HLG (Hybrid Log-Gamma)是4K广播电视系统采用的技术标准。是英国BBC和日本NHK电视台合作开发的技术标准,将SDR和HDR合二为一,在SDR显示器上也能正常播放。相比HDR10,它可以适应档次较低的显示设备,亮度方面最低支持500nit,最高支持2000nit,Sony目前一直在用这个技术,HLG也是免费授权,市场接受度也比较高,成本较低,遗憾的是HLG的输出不带动态元数据,跟HDR10一样只支持静态元数据,这方面比起杜比视界和HDR10+稍微有所逊色。

杜比视界(Dolby Visio)收费,HDR技术的视频动态范围大大提升,最暗0.007尼特,最亮高达4000尼特甚至后续会更高,最大支持是12bit色深,和HDR 10相比,杜比视界的规格更优异,首先在亮度资讯部分可以支持到4000nits,是HDR 10的四倍。在色深方面支持12bit,色彩阶数是10bit的64倍。另外,HDR 10是以一组“静态数据”来对应整部影片,如果影片中某些段落的明暗对比不一致,就可能出现画面偏暗的情形。而杜比视界是采取“动态元数据”,能针对每一幅画面(frame by frame)提供相对应的数据逐帧优化,让每幅画面的变化都符合导演的要求,整体表现远优于HDR 10。

单层杜比视界(Dolby Vision MEL)也称迷你杜比视界,主要应用于流媒体在线视频以及流媒体播放机,例如ZIDOO芝杜UHD3000、ZIDOO芝杜UHD2000、ZIDOO芝杜UHD1000、ZIDOO芝杜Z1000PRO、ZIDOO芝杜Z10PRO、ZIDOO芝杜Z9X、 Dune HD杜恩 Real Vision 4K、Dune HD杜恩 PRO VISION 4K SOLO、Dune HD杜恩 MAX VISON、apple tv、shiled tv、电视自带的播放器。采取“动态元数据”,10bit(10.7亿色)色深,色彩表现不及12bit(685亿色)的双层杜比视界。一般MKV、MP4等压缩4K片源及在线流媒体采用这种HDR技术。

双层杜比视界(Dolby Vision FEL)是顶级HDR技术,我们通常所说的“杜比视界”一般是指的双层杜比视界。只有高端4K电视支持(家用4K投影目前达不到这一标准)、比如索尼A80J、A90J、A9G、A8H、9000H、9500H等,LG C系列、B系列等

HDR10+,也称为 HDR10 Plus,于2017年4月20日由三星和亚马逊 Video 共同公布,由于杜比视界 HDR 极高的版权费用,三星等厂商不愿意支付,所以与松下、亚马逊和20世纪福斯创建了 HDR10 + 联盟,以推广HDR10 +标准。HDR10+ 通过添加动态元数据来更新 HDR10,动态元数据可用于在逐个场景或逐帧的基础上更精确地调整 HDR 的亮度级别,和杜比视界 HDR 类似,不过色深依旧是 10bit。个人认为HDR10+怎么看都像是单层杜比视界的换壳版本。目前采用HDR10+的电影远总是不超过10部,数量远小于杜比视界和HDR10的电影。

2007年杜比实验室收购了一家名叫BrightSide technologies的公司,并且制作了第一个HDR显示屏的原型。从那时开始,杜比不断投入对于这项技术,并在2014年CES上正式命名为Dolby Vision。 这项技术的核心是一项叫做“感知转换”(Perceptual Quantizer )的电-光转换功能(将电信号转为可见光),由此催生并定义了更高的动态范围。这项技术将亮度标准定义在 10,000 Nits(普通的电视亮度仅100-200nits左右)。但是,目前还没有实用显示设备能达到这一亮度,因此目前Dolby Vision的亮度目标是更实际的4,000nits。使用Dolby Vision录制的内容还包括最高12-bit色深,Rec 2020色域以及4K分辨率。 Dolby Vision是整套的专利解决方案,内容、播放源、显示设备都必须是兼容Dolby Vision标准的才可以。并且,每个Dolby Vision显示设备都带有一块专用芯片来检测确认此设备的输出能力(亮度,色彩空间等),播放时将这些数据传输给Dolby Vision的播放信号源。信号源将依据这些显示设备数据来逐帧优化输出,既兼顾到显示设备能力,又保持了原始信号的表达意图。

元数据
基于PQ的HDR使用嵌入在信号内的元数据来提供关于分级显示的参数信息。
PQ元数据有两种形式——静态和动态。
静态和动态元数据都包括显示RGB色度坐标的母带,白点色度和最小/最大亮度;它还包括最大帧平均光级(MaxFALL),其定义最亮的帧;以及最大内容光级(MaxCLL),其定义最亮的像素。 静态元数据在使用数据的所有时间内使用相同的值,而动态元数据会根据需要进行更改(可能会逐帧进行)。HDR10使用静态元数据;而Dolby Vision和HDR10 +使用动态。 但是,为什么我们需要元数据?:当HDR被引入时,没有电视可以匹配主控/分级显示器的峰值亮度和色域覆盖率,特别是峰值亮度。由于基于PQ的HDR的“绝对性”与母带显示无关,所以它们的峰值亮度不一样。为了试图克服这个问题,便引入了元数据以允许HDR电视重新映射图像内容。

HDR -现实与相关的问题 HDR显示器最大的问题是它们看起来也很痛苦,也被称为过度的眼疲劳。 人眼动态范围的对比度约为1,000,000:1左右。这是眼睛的动态适应能力,使我们能够在黑暗的环境以及明亮的阳光下看到细节。 然而,在任何一个给定的时间,人类视觉系统只能在这个巨大范围的一小部分上运行,被称为静态(固定)动态范围。这种静态动态范围发生在人类视觉系统处于完全适应状态时,在正常观看距离上观看家庭电视和某些戏剧表演时是活跃的。虽然人眼的静态动态范围几乎没有确切的数字,不过对于平均观看环境来说它是大约 10,000:1

由于电视机尺寸小,结合标准观看距离(3m左右),整个电视机屏幕均处于人眼中心视角(5°至15°)高敏感区:即视角人类视觉系统不能独立地 对不同的亮度区域进行反应 - 被卡在完全适应的状态之内,所以观众只能使用人眼的静态动态范围。为了从HDR中获益,显示器需要占据的实际视角将为45°左右。具有过高HDR的显示器将在正常观看距离时存在导致眼睛疲劳的问题。

关于HDR在图像拍摄处理这个领域和影像制作放映的HDR流程这个领域以及游戏中的HDR渲染这个领域,这三个HDR的一些区别:HDR图像是在在SDR图像上添加了高光和阴影的细节,使得它的曝光范围提升,但实际上由于不同的曝光,它在不同亮度区域交接的地方会显得很不真实。这项技术在这应用是为了弥补相机的曝光范围的限制,如果要从本质解决问题,购买更好的相机是最好的解决办法,类似于哈苏和飞思等高动态范围的机器,一张曝光就可以包括所有的细节,即不需要进行多级曝光来合成HDR了。HDR影像是为了尽可能的还原人眼所看到的真实场景,所以它对现实终端的亮度和色域都有更高的要求,这里的HDR便是亮部细节突出色彩丰富鲜艳而游戏里的是一种渲染方式,为了模拟现实中的人眼突然到从阴影到一个很亮的场景的一个自适应过程。

ref:
https://zhuanlan.zhihu.com/p/31768560
https://zhuanlan.zhihu.com/p/415148604
https://zhuanlan.zhihu.com/p/56080061

RTE2021 回顾丨HDR 技术产品实践与探索

本文整理自 OPPO HDR 研发负责人熊磊,在 RTE2021 实时互联网大会上的演讲。他通过介绍 HDR 视频标准与生态、关键技术、发展方向三部分,分享了在移动端 HDR 视频的落地情况以及技术细节。


▲图:OPPO HDR 研发负责人熊磊

HDR 这个词随处可见,拍照片时可以选择 HDR,拍出来照片看起来更加清晰。看视频时可以选择 HDR 格式播放,播出的画面显示更加明亮鲜艳。打游戏的时候,选择 HDR 画质选项,游戏体感更加流畅;这些技术都可以给用户带来 HDR 的体验。那什么是 HDR 视频呢?

01 HDR 视频标准与生态

HDR 视频有几个特点,首先是高对比度。通常来讲,现在能看到的 HDR 视频亮度范围是 0.005-1000nit,但标准最高能到 1 万 nit,目前之所以视频内容没有这么高亮度是因为受限于屏幕的显示硬件规格。第二个是宽色域,目前看到的 HDR 视频色域基本都在 display P3 色域范围内的,标准规定是最高能到 bit20,这受限于屏幕硬件。最后是高位深,常见的 HDR 视频都是 10bit 编码,普通视频是 8bit 编码,10bit 相较于 8bit 能表示的颜色种类会更多,所以色彩之间的过渡会更加自然。

我们认为,前面看到它的这些特点,同一个画面通过 SDR 和 HDR 编码出来的图像在暗部和亮部细节的对比上有比较明显的差异,HDR 视频能保留原始画面中更多的亮部和暗部的细节,显示的效果也更加好。

在视频的拍摄和分发系统上,HDR 视频可以更多的保留原始画面颜色信息以及亮度信息,呈现给用户更好的画质感受。

见 HDR 视频标准分两大类:一类是基于 PQ 的视频标准,我们采集到的信号需要经过二次竖立,生成元数据信息,这个元数据信息在屏显端会用做亮度映射。一类是 HLG 标准,在采集时即完成了编码,不需要做二次处理,对传统视频工作流影响比较小,在显示时能动态适配屏幕亮度,因此它主要是用于直播和广播的场景。

上图是几个标准的对比,主要看一下右边三个标准。右边是常见基于 PQ 的几个标准,首先是 HDR10,在手机上 HDR10 标准是最常见的,也是在各个链路上被支持比较好的。这个标准的特点是它支持的是静态元数据,不兼容 SDR 格式,也没有产品认证和版权费用。在 HDR10 基础上,三星和杜比分别开发出 HDR10+和 dolby vision 标准,这两个标准都增加了动态元数据,同时兼容 HDR10 格式。dolby vision 分不同的 profile,它还兼容 SDR 格式。在产品方面,这两个标准都有产品认证,在有些产品上可以看到这些认证 logo。HDR10+的版权费用目前宣布是免费,dolby vision 会对终端厂商收费。

02 HDR 视频的业界生态

现在 HDR 视频应用主要是电影行业,让我们通过一个电影从生产到分发到消费的工作流去更好地理解 HDR 视频生态。首先生产部分电影的拍摄,特邀处理和数字合成。然后生产出来电影内容会送到处理工作室做视频编辑、颜色调校以及导演的调色,最后生成的母版会根据分发途径不同做不同的内容格式编码。这就是一个 HDR 生态的标准工作流。

而分发这部分目前主要有两大途径,一个是直播,即常见的电影电视直播,第二个是流媒体,互联网或者 OTT 服务。最后通过不同分发途径,这些视频内容分发到不同终端上,手机、机顶盒、蓝光播放器,根据这些设备支持能力来进行 HDR 视频内容的解码和回放。

上图是一个生态全景图,对于整个生态来讲包含很多厂商,我们的认知生态是以 HDR 视频标准为基础,以前面的内容生产流程为纽带,将各个厂商聚合到一起,共同创造出来 HDR 视频的消费市场。我们比较关心的是流媒体生态,包括内容生产,分发,以及芯片和设备厂商。

对于流媒体生态的内容生产,我们现在主要电影生产还是从好莱坞八大那边出来的,主要支持两个格式是 dolby vision,三星提出 HDR10+,这些年也有几家厂商支持。视频分发 HDR10 和 dolby vision 占绝大部分,HDR10+ 和 HLG 则分别有对应的厂商支持,在目前 Android 生态里面支持最多的还是 HDR10,dolby vision 由于收费的问题所以在 Android 生态里面基本上看不到内容,但是 dolby vision 在苹果生态会占据很大份额,三星的 HDR10+目前在国内没有内容,在国外有几家都是支持 10+ 格式的。

我们主要看一下手机几个主要芯片厂商,手机现在主流芯片厂商主要是四家,高通、MTK、华为和苹果。华为和苹果都是自家芯片自家用,其中华为支持 10、10+、HLG,也支持其自家的 HDR Vivid 格式。苹果主要的支持是 HDR10 和 dolby vision。高通和 MTK 现在是 Android 手机最常用的芯片厂商,我们主要是支持 10、10+和 HLG。从芯片厂商的支持我们可以看到,手机侧现在 Android 手机,特别是近几年手机大部分是支持 10、10+和 HLG 格式,苹果主要是 dolby vision。

03 HDR 视频的关键的技术点

前面看了标准和生态,接下来看一下视频标准里面几个关键的技术点。

首先是亮度,自然界的亮度和对比度范围是挺大的,左边这个图一朵花里面最亮部分可以达到 14700nits,最暗的才 188nits,这个对比度能到大概 7000:1 的样子。但人眼能接收的亮度是有限的,过于暗的光线会导致人眼看不清物体,同时,人眼还有个特性,在不同的环境光亮度下,人眼是可以自动地调整它的瞳孔大小,以便更好的观察物体。新的 HDR 标准在定义的时候就很好地利用了人眼的这些视觉特性。

视频标准里面最基础的东西是光电转换曲线。顾名思义,把光信号转换为电信号存储起来的一个过程,该过程可以从下面亮度采集和重现过程看到。摄像机将自然界光线采集下来,通过光电转换曲线进行图样编码,最后生成数字信号,也就是人们常说的 YUV 或 RGB 数据,把这些数据送到显示端之后会做反向光电转换,将它解码成光信号,最后送到屏幕上输出,这样的话就能看到视频上的内容。不同视频标准有不同的光电转换曲线,传统视频标准及 SDR 光电转换曲线用的 Gamma 曲线。

Gamma 曲线最开始是依据传统的 CRT 亮度和电压响应关系定义出来的。虽然后面 CRT 显示设备我们基本不用了,但是 Gamma 曲线仍然作为 HDR 光电曲线在整个系统当中保留了下来。随着我们显示亮度范围提升和图像编码的提升,Gamma 光电转换已经不适用于 HDR 领域光电转换,所以我们需要定义一条新的曲线。

这个是杜比早前做过的一个实验,为了定义 PQ 光电曲线的亮度范围,各种信号水平用户喜好度 0-1 万比特,用户喜好度超过 84%,因此杜比在定义 PQ 这条光电曲线的时候,将峰值亮度定义到了 1 万。这部分利用了人眼的视觉特效模型定义了光电转换曲线的形状,我们发现紫色的线是人眼视觉特效模型 Barten ramp 阈值曲线,单比特光电转换曲线位于这条曲线斜坡之上时,说明转换出来的图像可能会有量化误差。位于阈值之下的时候,编码出来的图像会平滑。一个 12 比特的 Gama 峰值量都是 1000 比特和 12 比特 PQ,峰值量是 1 万和 1000 比特,它们的曲线在 Barten ramp 这条阈值曲线上是表示成这样。Gama 在 11 比特以下大部分处于曲线之上的,因此会出现量化误差,而 PQ 两条曲线和 Barten ramp 曲线形状比较一致,而且都处于 Barten ramp 曲线之下,所以它不会出现误差,而且不同亮度下位宽利用率比较好。

我们看左边的时候,左边是 10bit 的,把右边几个曲线往右上角平移了一下。10bit,是有量化误差的,但通常视频图像在分发过程中会做二次编码,这个编码会掩盖这部分量化误差,因此我们现在 HDR 视频生态里用得最多的是 10bit 编码格式,这是利用不同亮度下的 Gama 和 PQ 码字利用率,有两点。第一点,PQ 在不同亮度下,在低亮部分它都保留一定的码字,这样的话可以更好地展示低亮部分的细节,而 Gama 则没有。另外,在 1-1000 人眼常见亮度下,PQ 的码字分辨差异比较小,编码出来的码字比较稳定。

其次是色彩,10bit 编码颜色种类更多,更宽色域能显示的颜色则更多,右边 2020 色域相比 709 大很多,尤其是绿色区域,能显示更多绿色。

最后一个技术是色调映射,现在能看到的 HDR 视频通常峰值亮度都能到 1000 比特,但显示设备没有那么高的亮度,如果我们不做任何处理直接显示内容的话,超过显示设备能力的那部分数据就会被丢失掉,因此我们在显示之前需要根据显示设备峰值亮度做色调映射,就是 tonemapping。这个 tonemapping 主要依赖于内容生产时生成的 HDR 元数据来生成这条 tonemapping 曲线。

元数据分两大类:一个是静态元数据,HDR10,主要包括内容生产时的参考显示器的亮度信息和色彩信息以及最大的帧平均亮度和最大的内容亮度。另一类是动态元数据,动态元数据是由三星和杜比分别定义的,我们有个共同特点,是逐场景变化的元数据,每一个视频帧都携带一份动态元数据。

从上面这张图可以看出,动态元数据相比静态元数据,它在生成 tonemapping 曲线时更加灵活,它的每一帧都可以生成一条独立的 tonemapping 曲线,而静态元数据,整个文件所有帧都是共用一条 tonemapping 曲线。

最后我们看一下 HDR10+标准里面的色调映射,HDR10+动态元数据中包含一部分是贝塞尔曲线的 10 个锚点,第二部分是拐点信息,第三部分是参考屏幕的峰值亮度信息。在终端屏幕上可以重新构建出一条贝塞尔曲线,这条曲线在低亮的地方是一条直线,用直线可以保留在拍摄端显示出来的阴影细节,这样的话我们在做 tonemapping 亮度和亮度之间的关系不会有改变。接着上面那部分是一条曲线,10+ 标准里面用的是贝塞尔曲线,贝塞尔曲线的特点是可以通过有限的锚点生成一条平滑的形状各异的曲线,这条曲线在制作的时候,导演可以根据自己想要的创作意图去调整这条曲线的形状,在人脸部分可以保证人脸细节,天空部分可以通过这条曲线保证天空的细节。最后是 Knee point,Knee point 是直线和曲线的连接部分,通常是希望这条直线和曲线连接部分是平滑过渡的,也就是说直线斜率和曲线在 Knee point 一点的斜率必须是一致的,这样就能避免图像在 Knee point 点左右两边出现 compressd 现象。

04 HDR 技术未来发展方向

第一,在手机技术发展有一个普遍趋势,硬件能力的小型化和专业能力往移动端迁移,认知 HDR 技术也是遵循这个规律,所以未来首先是手机屏幕硬件发展,目前屏幕普遍支持亮度都是小于 1000 比特的,色域基本都在 DCI-P3,未来可能会出现更高亮度的屏幕以及支持更宽色域的屏幕。这样的话就能显示出更好的 HDR 效果。

第二,目前的拍摄能力向移动端演进,这个在 iPhone12 和 iPhone13 上都能看到一点趋势了,dolby vision 的拍摄到显示一整套链路的落地。

第三,未来认知图片格式可能也会有一次净化,目前的图片虽然拍照时打开 ”HDR,但本身图片格式是 8bit 的、Gamma 2.2 曲线的图像内容。图像内容实际上限制了现在手机上 SP 硬件的能力,因此未来可能会有新的 10bit HDR PQ 的照片标准或者格式出现;现在在一些相机上,像佳能,它们已经支持 10bit 的 HDRPQ 照片。有了拍摄同样也需要有显示,这个是 NETFLIX 在 XBOOK 上做的实验,将 HDR 视频外面简介画面替换成一张 HDR PQ 图片来显示,保证用户在播放视频之前看到的显示效果和视频里的显示效果是一致的,我们认为在未来这也可能会落地到移动端。这个落地有很多难点要解决,现在看到的最大难点是,在传统图像处理领域有很多图样算法,这些图样算法都是基于 8bit Gamma 值处理的,如果平移到 PQ 域的话,处理出来的图像效果和以前是不是一样的,这个是要打一个问号的。

往期回顾

RTE2021 回顾丨基于 V-PCC 框架的点云视频编码与重构技术

RTE2021 回顾丨声网实时背景分割算法研究与应用落地

RTE2021 回顾丨智感超清:给你最优的视觉盛宴!

RTE2021 回顾丨Flat 在线教室的开源初体验

RTE2021 回顾丨面向 RTE 场景的新一代 API 探索和实践

RTE2021 回顾丨实时语音活动背后的质量监控

RTE2021 回顾丨一增两减,助力深度学习在实时推理场景中的应用

RTE2021 回顾丨面向 RTE 场景的新一代 API 探索和实践

RTE2021 回顾丨实时语音活动背后的质量监控

RTE2021 回顾丨一增两减,助力深度学习在实时推理场景中的应用

RTE2021 回顾丨WebRTC 漫漫成长路,下一个十年将走向何方?

RTE2021 回顾丨基于深度学习的音频编/解码的实现与落地挑战

以上是关于HDR技术的主要内容,如果未能解决你的问题,请参考以下文章

技术案例Firefly-RK3399多路视频编解码

视频监控与视频编解码技术

编解码再进化:Ali266 与下一代视频技术

直播技术总结音视频数据压缩及编解码基础

二、视频编解码基础知识

编解码再进化:Ali266与下一代视频技术