熵——导读
Posted 笨拙的忍者
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了熵——导读相关的知识,希望对你有一定的参考价值。
整理自:https://mp.weixin.qq.com/s/LGyNq3fRlsRSatu1lpFnnw
问题:熵是什么?熵存在的意义是啥?为什么叫熵?
答案:在机器学习中熵是表征随机变量分布的混乱程度,分布越混乱,则熵越大,在物理学上表征物质状态的参量之一,也是体系混乱程度的度量;
熵存在的意义是度量信息量的多少,人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少,这时熵的意义就体现出来了;
熵词的由来是1923年胡刚复教授根据热温商之意翻译而来,此次不深究。
总结
自信息是衡量随机变量中的某个事件发生时所带来的信息量的多少,越是不可能发生的事情发生了,那么自信息就越大;
信息熵是衡量随机变量分布的混乱程度,是随机分布各事件发生的自信息的期望值,随机分布越宽广,则熵越大,越混乱;信息熵推广到多维领域,则可得到联合信息熵;
在某些先验条件下,自然引出条件熵,其表示在X给定条件下,Y的条件概率分布熵对X的数学期望,没有啥特别的含义,是一个非常自然的概念;
前面的熵都是针对一个随机变量的,而交叉熵、相对熵和互信息可以衡量两个随机变量之间的关系,三者作用几乎相同,只是应用范围和领域不同。交叉熵一般用在神经网络和逻辑回归中作为损失函数,相对熵一般用在生成模型中用于评估生成的分布和真实分布的差距,而互信息是纯数学的概念,作为一种评估两个分布之间相似性的数学工具,其三者的关系是:最大化似然函数,等价于最小化负对数似然,等价于最小化交叉熵,等价于最小化KL散度,互信息相对于相对熵区别就是互信息满足对称性;
作为熵的典型机器学习算法-决策树,广泛应用了熵进行特征划分,常用的有信息增益、信息增益率和基尼系数。
以上是关于熵——导读的主要内容,如果未能解决你的问题,请参考以下文章