Variational Image Compression With a Scale Hyperprior(ICLR 2018) - Video Compression Paper Reading(示

Posted 2020-12-14 hhhhhxh

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Variational Image Compression With a Scale Hyperprior(ICLR 2018) - Video Compression Paper Reading(示相关的知识，希望对你有一定的参考价值。

对变分推理做了点拓展(待精读)

(hat{y})间存在明显的空间相关性(spatial dependencies)。它们的尺度在空间上是耦合的。对一组目标变量之间的依赖关系进行建模的标准方法是引入假定目标变量独立的潜在变量，因此本文引入了一组额外的随机变量( ilde{z})来捕捉空间相关性

将每个元素( ilde{y}_i)建模为均值为0，标准差为(sigma_i)的高斯分布。其中标准偏差通过用参数转换(h_s)到( ilde{z})进行预测

[egin{aligned} p_{ ilde{oldsymbol{y}} mid ilde{oldsymbol{z}}}left( ilde{oldsymbol{y}} mid ilde{oldsymbol{z}}, oldsymbol{ heta}_{h} ight)=& prod_{i}left(mathcal{N}left(0, ilde{sigma}_{i}^{2} ight) * mathcal{U}left(-frac{1}{2}, frac{1}{2} ight) ight)left( ilde{y}_{i} ight) & ext { with } ilde{oldsymbol{sigma}}=h_{s}left( ilde{oldsymbol{z}} ; oldsymbol{ heta}_{h} ight) end{aligned}]

也就是在(y)的顶部简单的叠加另一个参数变换(h_a)来扩展推理模型

[egin{aligned} qleft( ilde{oldsymbol{y}}, ilde{oldsymbol{z}} mid oldsymbol{x}, oldsymbol{phi}_{g}, oldsymbol{phi}_{oldsymbol{h}} ight)=& prod_{i} mathcal{U}left( ilde{y}_{i} mid y_{i}-frac{1}{2}, y_{i}+frac{1}{2} ight) cdot prod_{j} mathcal{U}left( ilde{z}_{j} mid z_{j}-frac{1}{2}, z_{j}+frac{1}{2} ight) & ext { with } oldsymbol{y}=g_{a}left(oldsymbol{x} ; oldsymbol{phi}_{g} ight), oldsymbol{z}=h_{a}left(oldsymbol{y} ; oldsymbol{phi}_{h} ight) end{aligned}]

由于对超先验没有先验知识，因此我们现在使用先前用于( ilde{y})的非参数、全因子密度模型(non-parametric, fully factorized density model)对( ilde{z})进行建模

[p_{ ilde{oldsymbol{z}} mid oldsymbol{psi}}( ilde{oldsymbol{z}} mid oldsymbol{psi})=prod_i left(p_{z_{i} mid oldsymbol{psi}^{(i)}}left(oldsymbol{psi}^{(i)} ight) * mathcal{U}left(-frac{1}{2}, frac{1}{2} ight) ight)left( ilde{z}_{i} ight) ]

其中向量(psi^{(i)})封装了每个单变量分布(p_{z_i|psi^{(i)}})(统称为(psi))的参数。

该模型的损失函数为:

[egin{aligned} {mathbb{E}_{oldsymbol{x} sim p_{oldsymbol{x}}} D_{mathrm{KL}}left[q | p_{ ilde{oldsymbol{y}}, ilde{oldsymbol{z}} mid oldsymbol{x}} ight]=mathbb{E}_{oldsymbol{x} sim p_{oldsymbol{x}}} mathbb{E}_{ ilde{oldsymbol{y}}, ilde{oldsymbol{z}} sim q}left[log q( ilde{oldsymbol{y}}, ilde{oldsymbol{z}} mid oldsymbol{x})-log p_{oldsymbol{x} mid ilde{oldsymbol{y}}}(oldsymbol{x} mid ilde{oldsymbol{y}}) ight.}{left.-log p_{ ilde{oldsymbol{y}} mid ilde{oldsymbol{z}}}( ilde{oldsymbol{y}} mid ilde{oldsymbol{z}})-log p_{ ilde{oldsymbol{z}}}( ilde{oldsymbol{z}}) ight]+ ext { const. }} end{aligned}]

同样，第一项是零，因为(q)是单位宽度均匀密度的乘积。第二项(似然)包含了失真。第三项和第四项分别表示编码( ilde{y})和( ilde{z})的交叉熵。与传统的变换编码类似，第四项可以看作是表示边缘信息。

以上是关于Variational Image Compression With a Scale Hyperprior(ICLR 2018) - Video Compression Paper Reading(示的主要内容，如果未能解决你的问题，请参考以下文章

移动后iOS上的cordova-plugin-media-with-compression似乎无法播放音频文件

机器学习-白板推导系列(三十二)-变分自编码器(VAE，Variational AutoEncoder)

VAE(Variational Autoencoder)的原理

Auto-Encoding Variational Bayes

[论文阅读] Variational Adversarial Active Learning

每日一读Deep Variational Network Embedding in Wasserstein Space