最大化互信息
Posted Hungryof
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了最大化互信息相关的知识,希望对你有一定的参考价值。
总说
因为,一般做分类的,交叉熵很常见吧,类似KL散度或者交叉熵,本质上就是利用“编码长度”作文章。比如KL散度就是,不完美的概率 q q q去编码完美信息条件下的概率 p p p,从而多需要的编码长度。这种都是利用直接预测的某件事情的概率去做的。
比如,我需要预测这张图是不是猫,预测的猫的概率为 p ( x ) p(x) p(x),对吧,就是表示独立事件的本身。
某些情况下,有两个事件,一个事件的发生可以去预测另外一个事件的概率,就是条件概率。互信息衡量两个变量的依赖程度,可以理解为给定其中一个变量,可以多大程度的减少另一个变量的不确定性,具体为
I
(
A
,
B
)
=
H
(
A
)
−
H
(
A
∣
B
)
=
H
(
B
)
−
H
(
B
∣
A
)
I(A,B) = H(A) - H(A|B) = H(B) - H(B|A)
I(A,B)=H(A)−H(A∣B)=H(B)−H(B∣A)
这个很容易理解了。前者就是预测的事件的熵,后者就是依赖另外一个事件,我们去预测需要预测的事件的熵。含义很容易理解,假设我不能直接去拿到一个事件
A
A
A的信息,我需要另外一个事件
B
B
B,依赖这个事件去预测
A
A
A事件。
常见的例子是,类别 c c c去预测输入图的信息。就可以用互信息。
具体参考:
https://zhuanlan.zhihu.com/p/261704731
以上是关于最大化互信息的主要内容,如果未能解决你的问题,请参考以下文章
KDD 2020 | 会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合
会话推荐系统新进展:基于互信息最大化的多知识图谱语义融合 | KDD 2020