信息熵条件熵联合熵信息增益相对熵交叉熵

Posted 2021-01-09 huangyc

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了信息熵条件熵联合熵信息增益相对熵交叉熵相关的知识，希望对你有一定的参考价值。

信息熵

熵度量了事物的不确定性，越不确定的事物，它的熵就越大。在没有外部环境的作用下，事物总是向着熵增大的方向发展，所以熵越大，可能性也越大。
[ H(X)=-sum_{i=1}^np_{(i)}logp_{(i)} ]

条件熵

X确定时，Y的不确定性度量。
在X发生是前提下，Y发生新带来的熵。
[ H(Y|X)=H(X,Y)-H(X)=-sum_{x,y}p(x,y)logp(y|x) ]

联合熵

（X,Y）在一起时的不确定性度量
[ H(X,Y)=-sum_{x,y}p(x,y)logp(x,y) ]

互信息（信息增益）

表示两个变量X与Y是否有关系，以及关系的强弱。
[ I(X,Y)=∫_X∫_YP(X,Y)logfrac{P(X,Y)}{P(X)P(Y)} ]
[ I(X,Y)=H(Y)-H(Y|X) ]
[ I(X,Y)=H(Y)+H(X)-H(X,Y) ]
可以看出，I(X,Y)可以解释为由X引入而使Y的不确定度减小的量，这个减小的量为H(Y|X)。所以，如果X,Y关系越密切，I(X,Y)就越大，X,Y完全不相关，I(X,Y)为0，所以互信息越大，代表这个特征的分类效果越好。

相对熵

p与q不相似的度量
[ KL(p||q)=-sum_{x}p(x)logfrac{q(x)}{p(x)} ]

交叉熵

衡量p与q的相似性，常常用在深度学习中的分类的损失函数（深度学习中回归任务的损失主要是最小二乘法）。p是真实概率，q是预测概率
[ H(p,q)=-sum_{x}p(x)logq(x) ]
[ KL(p||q)=H(p,q)-H(p) ]

总结

信息熵是衡量随机变量分布的混乱程度，是随机分布各事件发生的信息量的期望值，随机变量的取值个数越多，状态数也就越多，信息熵就越大，混乱程度就越大。当随机分布为均匀分布时，熵最大；信息熵推广到多维领域，则可得到联合信息熵；条件熵表示的是在 X 给定条件下，Y 的条件概率分布的熵对 X的期望。
相对熵可以用来衡量两个概率分布之间的差异。
交叉熵可以来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。

以上是关于信息熵条件熵联合熵信息增益相对熵交叉熵的主要内容，如果未能解决你的问题，请参考以下文章

AI机器学习-信息熵，条件熵，信息增益

决策树与熵演变

机器学习深度学习中的信息熵相对熵（KL散度）交叉熵条件熵

信息熵增益

熵——信息增益

python里怎么计算信息增益，信息增益比，基尼指数