信息量,信息熵,交叉熵

Posted baibaibaiyou

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了信息量,信息熵,交叉熵相关的知识,希望对你有一定的参考价值。

1、信息量

公式:I(x) = -logp(x),单从公式上也可以看出,概率越低熵越大(低概率事件带来的高信息量)。通俗一点来说的话,就是概率论中很简单的推广就行了。

2、熵的定义

(1)上面的 I(x) 是指在某个概率分布之下,某个概率值对应的信息量的公式。那么我们要知道这整个概率分布对应的信息量的平均值。这个平均值叫做随机变量x的熵。

(2)熵是接收的每条信息中包含的信息的平均量,又被称为信息熵、信源熵、平均信息量。直白的解释就是信息中含的信息量的大小。

熵公式:I(x) = -∑p(x) logp(x),单从公式上也可以看出,概率越低熵越大(低概率事件带来的高信息量)。通俗一点来说的话,就是概率论中很简单的推广就行了。

注意: 
1.熵只依赖于X的分布,与X的取值无关,因此服从某个分布的X的熵也可以等价于这个分布的熵. 
2.定义0log0=0(因为可能出现某个取值概率为0的情况) 
3.熵越大,随机变量的不确定性就越大(因为之前说了,越是不确定,信息量就越大,要是平均信息量很大,那么也可以代表这个变量的不确定性越大)

交叉熵的公式:交叉熵就是把上面信息熵里正确信息量的p(x),换成了q(x)(而这里的p就代表了机器学习里的预测,那么他的值越接近p,预测的越准确)

H(p,q)= -∑p(x) logq(x)

p为真实分布,q为非真实分布

在机器学习中p为真实标记的分布,q为训练后的模型的预测标记分布,

例如某一样本的标签为1,即p = 1,预测概率为0.7,即q=0.7;-log(0.7)表示0.7与1的差异,预测越接近1,-log(0.7)就越小越接近0。可以结合log()函数图形进行分析

例如某一样本的标签为0,即p = 0,预测概率为0.4,即q=0.4;-log(1-0.4)表示0.4与1(1-p)的差异,预测越接近1(1-p),-log(1-0.4)就越小越接近0。

综合以上,损失函数合并起来的公式为:L = -∑y log(f(y))+(1-y)log(1-f(y))

即分类预测结果越正确,计算出来的交叉熵越小。

交叉熵作为损失函数的优势:在特征工程中,可以用来衡量两个随机变量之间的相似度。

以上是关于信息量,信息熵,交叉熵的主要内容,如果未能解决你的问题,请参考以下文章

深度学习交叉熵详解

信息量,熵,交叉熵,相对熵与代价函数

信息熵,交叉熵,KL散度

信息熵条件熵联合熵信息增益相对熵交叉熵

学习笔记之信息量熵KL散度交叉熵的一些介绍

信息量信息熵交叉熵相对熵