论文解读:High Dynamic Range and Super-Resolution from Raw Image Bursts
Posted Matrix_11
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文解读:High Dynamic Range and Super-Resolution from Raw Image Bursts相关的知识,希望对你有一定的参考价值。
论文解读:High Dynamic Range and Super-Resolution from Raw Image Bursts
今天介绍一篇发表于 2022 年 ACM Tranaction on Graphic 上的文章,这篇文章通过多帧曝光将 HDR 与 SR 放在一起解决,与一般的文章不同的地方在于,这篇文章是在 RAW 域处理这个问题。文章中的方法对于成像过程进行了准确的物理建模,同时利用一个迭代的优化方法求解图像恢复的逆问题,为了更好地解决这个图像恢复逆问题,文章中结合了基于特征学习的图像配准以及一个基于学习的图像先验。
Introduction
不管是手机摄影,还是单反摄影,图像的分辨率以及动态范围都是非常重要的两个参数,图像的分辨率反映了对细节的呈现能力,图像的动态范围反映了对环境整体明暗的呈现能力。单反因为有更大的机身,所以可以用更大的 sensor 以及更好的镜头,以笨重不易携带为代价,换取了更好的成像分辨率及动态范围。手机一般受到硬件尺寸的限制,在镜头及 sensor 上比起单反都要次一些,目前市面上主流的旗舰机的 sensor 尺寸大概 1/1.4 - 1/1.8 英寸之间,在这个尺寸上,要排布 3000 万 - 5000 万 个像素,意味着每个像素的面积都很小,所能捕获的动态范围也就很窄了。为了能捕获更宽的动态范围,一般都是利用多曝光融合的技术,就是对同一个场景,用不同的曝光连拍若干张,然后再利用算法进行配准,融合,这样获得的图像的动态范围,比起单曝光来说,都会大很多。然后说到超分,超分通俗来说就是数字变焦,单反的镜头是可以变焦的,所以拍摄远景的时候,可以通过将焦距拉长,从而对远景获得更高的分辨率,但是手机镜头都是固定焦距的,这种情况下怎么办呢,所以工程师们想到了数字变焦的技术,既然无法把镜头的焦距拉长,那就通过超分的技术,将远景的分辨率变大。超分本质上是一种数值插值的技术,在插值倍率不大比如 2 倍或者 3 倍的时候,几乎可以和实际的物理采样相当,不过一旦插值倍率太大,到了 4 倍以上,这个差异还是很明显的。超分有基于单帧的,也有基于多帧的。
HDR 以及 SR 是学术界一直在研究的课题,特别是随着深度学习的盛行,涌现了很多关于这方面的工作,不过绝大部分的工作都是在 sRGB 域,这篇文章的创新在于以下几点:
- 与之前在 sRGB 域处理的方式不同,这篇文章是在 RAW 域进行处理
- 与之前大部分工作将 HDR 及 SR 分开处理不同,这篇文章将 HDR 及 SR 联合处理,从信息融合的角度来说,HDR 及 SR 都可以通过多帧融合来实现
- 之前大部分的工作都是用深度网络学习一个映射,这篇文章是通过一个迭代优化的方式来解决,同时结合了基于特征学习的图像配准以及基于学习的图像先验信息,文章认为这样可以获得更加鲁棒的结果。
Image Formation Model
首先介绍一下成像过程,实际的成像过程一般都是一个退化的过程,也就是从一个高分辨率,高动态范围的场景,通过镜头,sensor 的转换,最后得到一张低分辨率,低动态范围的 RAW 图。
Dynamic Range
首先来看动态范围,我们知道现在的单反或者手机拍摄出来的都是数字图像,这都是 sensor 上通过模数转换及量化后得到的。在 RAW 域上,一个像素可以表示的数值范围是由该像素可以量化的位宽决定的,比如位宽是 10bit,那该像素可以表示的数值范围就是 0 - 1023,所以位宽是 q q q 的像素可以表示的数值范围就是 0 ∼ 2 q − 1 0 \\sim 2^q -1 0∼2q−1,而一个像素可以表示的动态范围是该像素可以表示的最大数值和最小数值之比,最大数值很好理解,一般就是 0 ∼ 2 q − 1 0 \\sim 2^q -1 0∼2q−1,不过最小数值一般不是 0,因为 sensor 即使在完全无光的环境下,sensor 由于自身的噪声及黑电平,也会有一定的数值。
Exposure
接下来看曝光,在 RAW 域,像素的数值和曝光时间是线性关系,在光圈及 ISO 固定的情况下,像素的数值可以近似表示成如下的关系:
y ( u ) = S ( Δ t x ( u ) ) y(u) = S(\\Delta t x(u)) y(u)=S(Δtx(u))
y ( u ) y(u) y(u) 表示 RAW 图上像素记录的像素值, x ( u ) x(u) x(u) 可以理解为环境的光照辐射强度, Δ t \\Delta t Δt 表示曝光时间, S S S 表示一个映射函数,不过需要注意的是,上面的表达式,只有在像素值没有超过可以表示的最大数值的时候是成立的,如果超过了该像素可以表示的最大数值,那就会出现饱和截断,这个时候就不再满足线性关系了。
Noise and SNR
最后,再看一下噪声及信噪比,之前也做过关于 sensor 噪声的详细分析,简单来说,sensor 上的噪声可以分为与环境光照也就是信号相关的噪声,以及与信号无关的噪声,与信号相关的噪声服从泊松分布,与信号无关的噪声服从高斯分布,文章中将这个噪声分布建模成如下的分布:
s ( u ) = α y ( u ) + β s(u) = \\sqrt\\alpha y(u) + \\beta s(u)=αy(u)+β
α , β \\alpha, \\beta α,β 分别表示泊松分布以及高斯分布的方差,信噪比表示为:
S N R ( u ) = m ( u ) y ( u ) s ( u ) = m ( u ) y ( u ) α y ( u ) + β SNR(u) = \\fracm(u)y(u)s(u) = \\fracm(u)y(u)\\sqrt\\alpha y(u) + \\beta SNR(u)=s(u)m(u)y(u)=αy(u)+βm(u)y(u)
m ( u ) m(u) m(u) 表示一个二值蒙版,将饱和截断的像素过滤掉,可以看到信噪比会随着信号的增大而增大。
Overall image formation model
整个成像过程可以看成是一个真实的高分辨率,高动态范围的图像 X X X: s H × s W × 3 sH \\times sW \\times 3 sH×sW×3,退化成了 K K K 个低分辨率,低动态范围的图像 Y Y Y: H × W H \\times W H×W, s s s 表示图像分辨率变化的尺度信息,假设 W k \\mathcalW_k Wk 表示采集第 k k k 个图像时的相机位移信息, B B B 表示成像时的模糊过程, D s D_s Ds 表示降采样过程, C C C 表示 sensor 的 CFA,整个退化过程可以表示为:
Y k = C D s B W k ( Δ t k X ) Y_k = C D_s B \\mathcalW_k (\\Delta t_k X) Yk=CDsBWk(ΔtkX)
令 A k = Δ t k C D s B W k A_k = \\Delta t_k C D_s B \\mathcalW_k Ak=ΔtkCDsBWk,整个过程可以表示为: Y k = A k X Y_k = A_kX Yk=AkX
再考虑后面的非线性映射,最终的退化过程表示为:
Y k = S ( A k X + ϵ k ) Y_k = S(A_kX + \\epsilon_k ) Yk=S(AkX+ϵk)
目前这个过程只考虑了相机的抖动,没有考虑场景中物体的移动,也就是认为场景是相对静态的,如果用这个过程直接求解场景中有物体移动的情况,可能会出现鬼影问题,文章也在后面针对这个问题提出了解决的思路。
Proposed Approach
前面介绍了成像过程相关的几个重要因素,包括动态范围,曝光,噪声等,同时也对成像的退化过程做了建模,但我们最终其实是要求解一个反问题,也就是说,我们观察到的是若干张不同曝光的低分辨率,低动态范围的图像, Y = Y 1 , Y 2 , . . . , Y k \\mathcalY = \\Y_1, Y_2, ..., Y_k \\ Y=Y1,Y2,...,Yk,其对应的曝光时间为 Δ t 1 , . . . , Δ t k \\\\Delta t_1,...,\\Delta t_k\\ Δt1,...,Δtk如何求解得到一张高分辨率,高动态范围的图像 X X X ?
X ^ = F θ ( Y , θ ) \\hatX = F_\\theta(\\mathcalY, \\theta) X^=Fθ(Y,θ)
这个问题最终可以转化成求解如下的逆问题:
min X , W 1 , . . . , W k 1 2 ∑ k = 1 K ∣ ∣ W k ⊙ ( Y k − A k X ) ∣ ∣ F 2 + λ Ω ( X ) \\min_X, W_1, ..., W_k \\frac12 \\sum_k=1^K || W_k \\odot (Y_k - A_k X) ||_F^2 + \\lambda \\Omega(X) X,W1,...,Wkmin21k=1∑K∣∣Wk⊙(Yk−AkX)∣∣F2+λΩ(X)
W k W_k Wk 可以看成是每一帧的融合权重,文章中介绍了一种较为鲁棒的融合权重的计算策略:
W
k
=
Δ
t
k
m
(
Y
k
)
∑
j
=
1
K
Δ
t
j
m
(
Y
j
)
以上是关于论文解读:High Dynamic Range and Super-Resolution from Raw Image Bursts的主要内容,如果未能解决你的问题,请参考以下文章 论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes 论文解读:Deep High Dynamic Range Imaging of Dynamic Scenes 论文解读:High Dynamic Range and Super-Resolution from Raw Image Bursts paper 72 :高动态范围(HDR)图像 HDR (High Dynamic Range) 论文解读:A Focused Dynamic Attention Model for Visual Question Answering 论文解读:Dynamic Memory Networks for Visual and Textual Question Answering