最大化互信息

Posted Hungryof

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了最大化互信息相关的知识,希望对你有一定的参考价值。

总说

因为,一般做分类的,交叉熵很常见吧,类似KL散度或者交叉熵,本质上就是利用“编码长度”作文章。比如KL散度就是,不完美的概率 q q q去编码完美信息条件下的概率 p p p,从而多需要的编码长度。这种都是利用直接预测的某件事情的概率去做的。

比如,我需要预测这张图是不是猫,预测的猫的概率为 p ( x ) p(x) p(x),对吧,就是表示独立事件的本身。

某些情况下,有两个事件,一个事件的发生可以去预测另外一个事件的概率,就是条件概率。互信息衡量两个变量的依赖程度,可以理解为给定其中一个变量,可以多大程度的减少另一个变量的不确定性,具体为

I ( A , B ) = H ( A ) − H ( A ∣ B ) = H ( B ) − H ( B ∣ A ) I(A,B) = H(A) - H(A|B) = H(B) - H(B|A) I(A,B)=H(A)H(AB)=H(B)H(BA)
这个很容易理解了。前者就是预测的事件的熵,后者就是依赖另外一个事件,我们去预测需要预测的事件的熵。含义很容易理解,假设我不能直接去拿到一个事件 A A A的信息,我需要另外一个事件 B B B,依赖这个事件去预测 A A A事件。

常见的例子是,类别 c c c去预测输入图的信息。就可以用互信息。

具体参考:
https://zhuanlan.zhihu.com/p/261704731

以上是关于最大化互信息的主要内容,如果未能解决你的问题,请参考以下文章

最大化互信息

最大化互信息

互信息(Mutual Information)的介绍

机器学习特征筛选:互信息法(mutual information)

决策树 随机森林 adaboost

5中常用的相关分析方法