熵——导读

Posted 2020-11-06 笨拙的忍者

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了熵——导读相关的知识，希望对你有一定的参考价值。

整理自：https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw

问题：熵是什么？熵存在的意义是啥？为什么叫熵？

答案：在机器学习中熵是表征随机变量分布的混乱程度，分布越混乱，则熵越大，在物理学上表征物质状态的参量之一，也是体系混乱程度的度量；

　　　熵存在的意义是度量信息量的多少，人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少，这时熵的意义就体现出来了；

　　　熵词的由来是1923年胡刚复教授根据热温商之意翻译而来，此次不深究。

自信息
信息熵
条件熵
交叉熵
相对熵
互信息
信息增益
信息增益率
基尼系数

总结

自信息是衡量随机变量中的某个事件发生时所带来的信息量的多少，越是不可能发生的事情发生了，那么自信息就越大；

信息熵是衡量随机变量分布的混乱程度，是随机分布各事件发生的自信息的期望值，随机分布越宽广，则熵越大，越混乱；信息熵推广到多维领域，则可得到联合信息熵；

在某些先验条件下，自然引出条件熵，其表示在X给定条件下，Y的条件概率分布熵对X的数学期望，没有啥特别的含义，是一个非常自然的概念；

前面的熵都是针对一个随机变量的，而交叉熵、相对熵和互信息可以衡量两个随机变量之间的关系，三者作用几乎相同，只是应用范围和领域不同。交叉熵一般用在神经网络和逻辑回归中作为损失函数，相对熵一般用在生成模型中用于评估生成的分布和真实分布的差距，而互信息是纯数学的概念，作为一种评估两个分布之间相似性的数学工具，其三者的关系是：最大化似然函数，等价于最小化负对数似然，等价于最小化交叉熵，等价于最小化KL散度，互信息相对于相对熵区别就是互信息满足对称性；

作为熵的典型机器学习算法-决策树，广泛应用了熵进行特征划分，常用的有信息增益、信息增益率和基尼系数。

以上是关于熵——导读的主要内容，如果未能解决你的问题，请参考以下文章