熵互信息与相对熵的关系

Posted 爱吃猫咪的花酱

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了熵互信息与相对熵的关系相关的知识,希望对你有一定的参考价值。

目录

相对熵

相对熵(relative entropy)定义为

D ( p   ∣ ∣   q ) = ∑ x ∈ X p ( x ) log ⁡ p ( x ) q ( x ) (1) D(p\\ ||\\ q)=\\sum_x\\in \\mathcalXp(x)\\log\\fracp(x)q(x)\\tag1 D(p  q)=xXp(x)logq(x)p(x)(1)

相对熵又常被称为KL散度(KL-divergence),用来度量两个概率分布之间的距离,其中分布 p p p为真实分布, q q q为假定的分布。相对熵非负。

互信息及其与相对熵的关系

互信息(mutual information)定义为

I ( X ; Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x ∣ y ) p ( x ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) (2) \\beginaligned I(X;Y)&=\\sum_x\\in \\mathcalX\\sum_y\\in \\mathcalYp(x,y)\\log\\fracp(x\\mid y)p(x)\\\\&=\\sum_x\\in \\mathcalX\\sum_y\\in \\mathcalYp(x,y)\\log\\fracp(x,y)p(x)p(y) \\endaligned \\tag2 I(X;Y)=xXyYp(x,y)logp(x)p(xy)=xXyYp(x,y)logp(x)p(y)p(x,y)(2)
互信息描述了从 X X X Y Y Y中能得到的关于对方的信息量,故又有
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) I(X;Y)=H(X)H(XY)=H(Y)H(YX)
可以看到互信息是一种特殊的相对熵,即

I ( X ; Y ) = D ( p ( x , y )   ∣ ∣   p ( x ) p ( y ) ) (3) I(X;Y)=D(p(x,y)\\ ||\\ p(x)p(y))\\tag3 I(X;Y)=D(p(x,y)  p(x)p(y))(3)
所以互信息也是非负的。所以也可以得到
H ( X ) ≥ H ( X ∣ Y ) H(X)\\geq H(X|Y) H(X)H(XY)
条件降低熵
但注意 H ( X ) H(X) H(X) H ( X ∣ Y = y ) H(X|Y=y) H(XY=y)并没有明确大小关系!

熵与相对熵的关系

考虑一个信源,其真实分布为 p p p,但通过观察、测量或假定其为分布 q q q,则利用分布 q q q对信源进行编码,所需的平均码长为

H ( p ) + D ( p   ∣ ∣   q ) (4) H(p)+D(p\\ ||\\ q)\\tag4 H(p)+D(p  q)(4)

即比按照真实分布来进行最优编码得到的平均码长 H ( p ) H(p) H(p)要长,且长出的量正是 D ( p   ∣ ∣   q ) D(p\\ ||\\ q) D(p  q)。举例如下,对于一个有4个取值的信源,假设其真实分布为 ( 1 / 2 , 1 / 4 , 1 / 8 , 1 / 8 ) (1/2,1/4,1/8,1/8) (1/2,1/4,1/8,1/8),则最优编码的平均码长为1.75bit,而若按照均匀分布进行设计编码,则需要2bit,多出的0.25bit正是两个分布的相对熵。

对式(4)稍作变化

H ( p ) + D ( p   ∣ ∣   q ) = ∑ x ∈ X p ( x ) log ⁡ 1 p ( x ) p ( x ) q ( x ) = ∑ x ∈ X p ( x ) log ⁡ 1 q ( x ) ≥ H ( p ) = ∑ x ∈ X p ( x ) log ⁡ 1 p ( x ) (5) \\beginalignedH(p)+D(p\\ ||\\ q)&=\\sum_x\\in \\mathcalXp(x)\\log \\frac1p(x)\\fracp(x)q(x)\\\\&=\\sum_x\\in \\mathcalXp(x)\\log \\frac1q(x)\\\\&\\geq H(p)\\\\&=\\sum_x\\in \\mathcalXp(x)\\log \\frac1p(x)\\endaligned\\tag5 H(p)+D(p  q)=xXp(x)logp(x)1q(x)p(x)=xXp(x)logq(x)1H(p)=xXp(x)logp(x)1(5)

即得到了香农辅助定理

∑ x ∈ X p ( x ) log ⁡ 1 q ( x ) ≥ ∑ x ∈ X p ( x ) log ⁡ 1 p ( x ) (6) \\sum_x\\in \\mathcalXp(x)\\log \\frac1q(x)\\geq \\sum_x\\in \\mathcalXp(x)\\log \\frac1p(x)\\tag6 xXp(x)logq(x)1xXp(x)logp(x)1(6)

从上面的例子中,我们也可以得到一个常用不等式,即将分布 q q q假定位均匀分布 u u u

H ( p ) = log ⁡ M − D ( p   ∣ ∣   u ) (7) H(p)=\\log M-D(p\\ ||\\ u)\\tag7 熵,条件熵,相对熵,互信息的相关定义及公式推导

关于信息论中熵的定义与含义:

信息熵的直观理解

两幅图像的互信息和联合熵 - MATLAB

scipy 中用于计算相对熵的 3 个函数。有啥不同?

B-概率论-熵和信息增益