数学狂想曲——玻尔兹曼分布

Posted 2022-12-05 antkillerfarm

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数学狂想曲——玻尔兹曼分布相关的知识，希望对你有一定的参考价值。

http://antkillerfarm.github.io

玻尔兹曼分布

Boltzmann distribution（又叫Gibbs distribution）本来是脱胎于热力学和统计力学的分布，但在量子力学和机器学习领域也得到了广泛的应用。

注：Ludwig Eduard Boltzmann，1844～1906，奥地利物理学家，统计力学的奠基人之一。维也纳大学博士，先后执教于格拉茨大学、维也纳大学、慕尼黑大学和莱比锡大学。英国皇家学会会员。

信息熵

设概率实验X有n个可能的独立结局，即n个随机事件 $A_1,\\dots,A_n$ ，每个随机事件的概率为 $p_1,\\dots,p_n$ 。则信息熵的定义为：

Hn=−k∑i=1npilnpi(1) $H_n=-k\\sum_i=1^np_i\\ln p_i\\tag1$

其中k为一正常数。可以看出 $H_n$ 实际上是 $p_i$ 的泛函。

以下我们主要从信息熵的角度出发研究玻尔兹曼分布。但不能忽视的是，玻尔兹曼分布最早脱胎于热力学，而信息熵与热力学统计物理中的熵，虽然数学形式一致，但本质是不同的。两者相差一个玻尔兹曼常数。参见：

https://www.zhihu.com/question/20992022/answer/50458123

信息熵与热力学统计物理中的熵有什么区别和联系？

注：信息熵的定义有多种，公式1给出的是Shannon熵的定义，除此之外还有von Neumann熵、Renyi熵等。以下如无特殊指出，信息熵均指Shannon熵。

最大信息熵原理

事实上，有些随机事件其概率往往不可能直接计算，平常我们对具体问题作出处理时，掌握的仅仅是一些与随机事件有关的随机变量的统计平均值，以及某些其他制约条件。而当一个随机变量的平均值给定时，还可以有多种概率分布与之相容。现在的问题是如何从这些相容的概率分布中挑选出“最可几”的分布来作为实际上的分布。显然，要做到这点，必须有个挑选标准，最大信息熵原理就可作为这种挑选标准。

注：最可几分布（Most Probable Distribution），又称最概然分布。它表征在特定系统的特定状态下，出现概率最大的分布。从它的定义可以看出，它实际上并不是某种具体的分布，而更像是符合某一特定目标的分布。
比如，麦克斯韦-玻尔兹曼分布、费米-狄拉克分布和玻色-爱因斯坦分布，是热力学常见的三种最可几分布。但它们所处的系统，以及系统的状态各不相同。

最大熵原理是1957年由E.T.Jaynes提出的，其主要思想是，在只掌握关于未知分布的部分知识时，应该选取符合这些知识但熵值最大的概率分布。其实质就是，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，这是我们可以作出的唯一不偏不倚的选择，任何其它的选择都意味着我们增加了其它的约束和假设，这些约束和假设根据我们掌握的信息无法作出。

注：Edwin Thompson Jaynes，1922～1998，美国统计学家。普林斯顿大学博士，华盛顿大学教授。

假定系统涉及的M个随机变量 $f_i^(j)(j=1,\\dots,M)$ 的期望值 $F_j$ 已知，即：

Fj=∑i=1nf(j)ipi(2) $F_j=\\sum_i=1^nf_i^(j)p_i\\tag2$

其中 $f_i^(j)$ 表示第j个随机变量在状态i中的取值。 $p_i$ 满足归一化条件：

∑i=1npi=1(3) $\\sum_i=1^np_i=1\\tag3$

将公式2和公式3所述的两个约束，代入公式1，可得如下Lagrange乘子：

J(pi)=Hn/k−α(∑i=1npi−1)−∑j=1Mβj(∑i=1nf(j)ipi−Fj)=−∑i=1npilnpi−α∑i=1npi+α−∑j=1M∑i=1nβjf(j)ipi+∑j=