最大化互信息

Posted 2022-01-27 Hungryof

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了最大化互信息相关的知识，希望对你有一定的参考价值。

总说

因为，一般做分类的，交叉熵很常见吧，类似KL散度或者交叉熵，本质上就是利用“编码长度”作文章。比如KL散度就是，不完美的概率 $q$ 去编码完美信息条件下的概率 $p$ ，从而多需要的编码长度。这种都是利用直接预测的某件事情的概率去做的。

比如，我需要预测这张图是不是猫，预测的猫的概率为 $p (x)$ ，对吧，就是表示独立事件的本身。

某些情况下，有两个事件，一个事件的发生可以去预测另外一个事件的概率，就是条件概率。互信息衡量两个变量的依赖程度，可以理解为给定其中一个变量，可以多大程度的减少另一个变量的不确定性，具体为

$I (A, B) = H (A) - H (A ∣ B) = H (B) - H (B ∣ A)$
这个很容易理解了。前者就是预测的事件的熵，后者就是依赖另外一个事件，我们去预测需要预测的事件的熵。含义很容易理解，假设我不能直接去拿到一个事件 $A$ 的信息，我需要另外一个事件 $B$ ，依赖这个事件去预测 $A$ 事件。

常见的例子是，类别 $c$ 去预测输入图的信息。就可以用互信息。

具体参考：
https://zhuanlan.zhihu.com/p/261704731

以上是关于最大化互信息的主要内容，如果未能解决你的问题，请参考以下文章