熵互信息与相对熵的关系
Posted 爱吃猫咪的花酱
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了熵互信息与相对熵的关系相关的知识,希望对你有一定的参考价值。
目录
相对熵
相对熵(relative entropy)定义为
D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) log p ( x ) q ( x ) (1) D(p\\ ||\\ q)=\\sum_x\\in \\mathcalXp(x)\\log\\fracp(x)q(x)\\tag1 D(p ∣∣ q)=x∈X∑p(x)logq(x)p(x)(1)
相对熵又常被称为KL散度(KL-divergence),用来度量两个概率分布之间的距离,其中分布 p p p为真实分布, q q q为假定的分布。相对熵非负。
互信息及其与相对熵的关系
互信息(mutual information)定义为
I
(
X
;
Y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
∣
y
)
p
(
x
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
(2)
\\beginaligned I(X;Y)&=\\sum_x\\in \\mathcalX\\sum_y\\in \\mathcalYp(x,y)\\log\\fracp(x\\mid y)p(x)\\\\&=\\sum_x\\in \\mathcalX\\sum_y\\in \\mathcalYp(x,y)\\log\\fracp(x,y)p(x)p(y) \\endaligned \\tag2
I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(x∣y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)(2)
互信息描述了从
X
X
X或
Y
Y
Y中能得到的关于对方的信息量,故又有
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)
I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
可以看到互信息是一种特殊的相对熵,即
I
(
X
;
Y
)
=
D
(
p
(
x
,
y
)
∣
∣
p
(
x
)
p
(
y
)
)
(3)
I(X;Y)=D(p(x,y)\\ ||\\ p(x)p(y))\\tag3
I(X;Y)=D(p(x,y) ∣∣ p(x)p(y))(3)
所以互信息也是非负的。所以也可以得到
H
(
X
)
≥
H
(
X
∣
Y
)
H(X)\\geq H(X|Y)
H(X)≥H(X∣Y)
即条件降低熵。
但注意
H
(
X
)
H(X)
H(X)和
H
(
X
∣
Y
=
y
)
H(X|Y=y)
H(X∣Y=y)并没有明确大小关系!
熵与相对熵的关系
考虑一个信源,其真实分布为 p p p,但通过观察、测量或假定其为分布 q q q,则利用分布 q q q对信源进行编码,所需的平均码长为
H ( p ) + D ( p ∣ ∣ q ) (4) H(p)+D(p\\ ||\\ q)\\tag4 H(p)+D(p ∣∣ q)(4)
即比按照真实分布来进行最优编码得到的平均码长 H ( p ) H(p) H(p)要长,且长出的量正是 D ( p ∣ ∣ q ) D(p\\ ||\\ q) D(p ∣∣ q)。举例如下,对于一个有4个取值的信源,假设其真实分布为 ( 1 / 2 , 1 / 4 , 1 / 8 , 1 / 8 ) (1/2,1/4,1/8,1/8) (1/2,1/4,1/8,1/8),则最优编码的平均码长为1.75bit,而若按照均匀分布进行设计编码,则需要2bit,多出的0.25bit正是两个分布的相对熵。
对式(4)稍作变化
H ( p ) + D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) log 1 p ( x ) p ( x ) q ( x ) = ∑ x ∈ X p ( x ) log 1 q ( x ) ≥ H ( p ) = ∑ x ∈ X p ( x ) log 1 p ( x ) (5) \\beginalignedH(p)+D(p\\ ||\\ q)&=\\sum_x\\in \\mathcalXp(x)\\log \\frac1p(x)\\fracp(x)q(x)\\\\&=\\sum_x\\in \\mathcalXp(x)\\log \\frac1q(x)\\\\&\\geq H(p)\\\\&=\\sum_x\\in \\mathcalXp(x)\\log \\frac1p(x)\\endaligned\\tag5 H(p)+D(p ∣∣ q)=x∈X∑p(x)logp(x)1q(x)p(x)=x∈X∑p(x)logq(x)1≥H(p)=x∈X∑p(x)logp(x)1(5)
即得到了香农辅助定理
∑ x ∈ X p ( x ) log 1 q ( x ) ≥ ∑ x ∈ X p ( x ) log 1 p ( x ) (6) \\sum_x\\in \\mathcalXp(x)\\log \\frac1q(x)\\geq \\sum_x\\in \\mathcalXp(x)\\log \\frac1p(x)\\tag6 x∈X∑p(x)logq(x)1≥x∈X∑p(x)logp(x)1(6)
从上面的例子中,我们也可以得到一个常用不等式,即将分布 q q q假定位均匀分布 u u u
H ( p ) = log M − D ( p ∣ ∣ u ) (7) H(p)=\\log M-D(p\\ ||\\ u)\\tag7 熵,条件熵,相对熵,互信息的相关定义及公式推导