数据挖掘中所需的概率论与数理统计知识

Posted 算法与数学之美

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘中所需的概率论与数理统计知识相关的知识,希望对你有一定的参考价值。


第四节、从数理统计简史中看正态分布的历史由来

参考小君之前推出的正态分布的前世今生,在此不再赘述。


第五节、论道正态,正态分布的4大数学推导  

5.1、 高斯的推导(1809)

    第一条小径是高斯找到的,高斯以如下准则作为小径的出发点

误差分布导出的极大似然估计 = 算术平均值

    设真值为,而数据挖掘中所需的概率论与数理统计知识(二)数据挖掘中所需的概率论与数理统计知识(二)次独立测量值,每次测量的误差为数据挖掘中所需的概率论与数理统计知识(二),假设误差数据挖掘中所需的概率论与数理统计知识(二)的密度函数为数据挖掘中所需的概率论与数理统计知识(二),则测量值的联合概率为n个误差的联合概率,记为

数据挖掘中所需的概率论与数理统计知识(二)

    为求极大似然估计,令

数据挖掘中所需的概率论与数理统计知识(二)

    整理后可以得到

数据挖掘中所需的概率论与数理统计知识(二)

    令数据挖掘中所需的概率论与数理统计知识(二),由上式可以得到

数据挖掘中所需的概率论与数理统计知识(二)

    由于高斯假设极大似然估计的解就是算术平均数据挖掘中所需的概率论与数理统计知识(二),把解带入上式,可以得到

数据挖掘中所需的概率论与数理统计知识(二)

    在上式中取数据挖掘中所需的概率论与数理统计知识(二),有

数据挖掘中所需的概率论与数理统计知识(二)

    由于此时有数据挖掘中所需的概率论与数理统计知识(二),并且数据挖掘中所需的概率论与数理统计知识(二)是任意的,由此得到:数据挖掘中所需的概率论与数理统计知识(二).再在(6)式中取数据挖掘中所需的概率论与数理统计知识(二),并且要求数据挖掘中所需的概率论与数理统计知识(二),且数据挖掘中所需的概率论与数理统计知识(二),则有数据挖掘中所需的概率论与数理统计知识(二),并且

数据挖掘中所需的概率论与数理统计知识(二)

    所以得到数据挖掘中所需的概率论与数理统计知识(二)而满足上式的唯一的连续函数就是数据挖掘中所需的概率论与数理统计知识(二),从而进一步可以求解出

数据挖掘中所需的概率论与数理统计知识(二)

    由于数据挖掘中所需的概率论与数理统计知识(二)是概率分布函数,把数据挖掘中所需的概率论与数理统计知识(二)正规化一下就得到正态分布密度函数数据挖掘中所需的概率论与数理统计知识(二)

5.2、Herschel(1850)和麦克斯韦(1860)的推导

    第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年,天文学家Herschel在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布f(x,y),Herschel设置了两个准则:

  1. x轴和y轴的误差是相互独立的,即误差的概率在正交的方向上相互独立;

  2. 误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系。

    这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1,可以得到数据挖掘中所需的概率论与数理统计知识(二)应该具有如下形式

数据挖掘中所需的概率论与数理统计知识(二)

    把这个函数转换为极坐标,在极坐标下的概率密度函数设为数据挖掘中所需的概率论与数理统计知识(二),有

数据挖掘中所需的概率论与数理统计知识(二)

    由准则2,数据挖掘中所需的概率论与数理统计知识(二)具有旋转对称性,也就是应该和数据挖掘中所需的概率论与数理统计知识(二)无关,所以数据挖掘中所需的概率论与数理统计知识(二),综合以上,我们可以得到

数据挖掘中所需的概率论与数理统计知识(二)

    取数据挖掘中所需的概率论与数理统计知识(二),得到数据挖掘中所需的概率论与数理统计知识(二),所以上式可以转换为

数据挖掘中所需的概率论与数理统计知识(二)

    令数据挖掘中所需的概率论与数理统计知识(二),则有

数据挖掘中所需的概率论与数理统计知识(二)

    从这个函数方程中可以解出数据挖掘中所需的概率论与数理统计知识(二),从而可以得到数据挖掘中所需的概率论与数理统计知识(二)的一般形式如下

数据挖掘中所需的概率论与数理统计知识(二)

    而数据挖掘中所需的概率论与数理统计知识(二)就是正态分布数据挖掘中所需的概率论与数理统计知识(二),而数据挖掘中所需的概率论与数理统计知识(二)就是标准二维正态分布函数。

数据挖掘中所需的概率论与数理统计知识(二)

    1860年,我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布数据挖掘中所需的概率论与数理统计知识(二)。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗?

数据挖掘中所需的概率论与数理统计知识(二)

    所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布?反正我是一直不知道,直到今年才明白。
    Herschel-Maxwell推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有
数据挖掘中所需的概率论与数理统计知识(二)的数学公式的时候,就会问:圆在哪里?这个推导中使用到了数据挖掘中所需的概率论与数理统计知识(二),也就是告诉我们正态分布密度公式中有个数据挖掘中所需的概率论与数理统计知识(二),其根源来在于二维正态分布中的等高线恰好是个圆。

5.3、Landon的推导(1941)

    第三条道是一位电气工程师,Vernon D. Landon 给出的。1941年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差数据挖掘中所需的概率论与数理统计知识(二)来刻画。因此他推理认为噪声电压的分布函数形式是数据挖掘中所需的概率论与数理统计知识(二)。现在假设有一个相对于数据挖掘中所需的概率论与数理统计知识(二)而言很微小的误差扰动数据挖掘中所需的概率论与数理统计知识(二),且数据挖掘中所需的概率论与数理统计知识(二)的分布函数是数据挖掘中所需的概率论与数理统计知识(二),那么新的噪声电压是数据挖掘中所需的概率论与数理统计知识(二)。Landon提出了如下的准则

  1. 随机噪声具有稳定的分布模式

  2. 累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量)

    用数学的语言描述:如果

数据挖掘中所需的概率论与数理统计知识(二)

    则有数据挖掘中所需的概率论与数理统计知识(二).现在我们来推导函数数据挖掘中所需的概率论与数理统计知识(二)应该长成啥样。按照两个随机变量和的分布的计算方式,数据挖掘中所需的概率论与数理统计知识(二)的分布函数将是数据挖掘中所需的概率论与数理统计知识(二)的分布函数和数据挖掘中所需的概率论与数理统计知识(二)的分布函数的卷积,即有

数据挖掘中所需的概率论与数理统计知识(二)

    把数据挖掘中所需的概率论与数理统计知识(二)在x′处做泰勒级数展开(为了方便,展开后把自变量由x′替换为x),上式可以展开为

数据挖掘中所需的概率论与数理统计知识(二)

数据挖掘中所需的概率论与数理统计知识(二),则有

数据挖掘中所需的概率论与数理统计知识(二)

    对于微小的随机扰动数据挖掘中所需的概率论与数理统计知识(二),我们认为他取正值或者负值是对称的,所以数据挖掘中所需的概率论与数理统计知识(二)。所以有

数据挖掘中所需的概率论与数理统计知识(二)(8)

    对于新的噪声电压是x′=x+e,方差由数据挖掘中所需的概率论与数理统计知识(二)增加为数据挖掘中所需的概率论与数理统计知识(二),所以按照Landon的分布函数模式不变的假设,新的噪声电压的分布函数应该为。把数据挖掘中所需的概率论与数理统计知识(二)数据挖掘中所需的概率论与数理统计知识(二)处做泰勒级数展开,得到

数据挖掘中所需的概率论与数理统计知识(二)(9)

    比较(8)和(9)这两个式子,可以得到如下偏微分方程

数据挖掘中所需的概率论与数理统计知识(二)

    而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到

数据挖掘中所需的概率论与数理统计知识(二)

    又一次,我们推导出了正态分布!
    概率论沉思录作者E.T.Jaynes对于这个推导的评价很高,认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本,相比于中心极限定理来说,是一次性累加所有的因素,Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声
数据挖掘中所需的概率论与数理统计知识(二)是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。

5.4、正态分布和最大熵

    还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,不过难以确认这条道的发现者是否是Jaynes本人。
    熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。
    对于一个概率分布
数据挖掘中所需的概率论与数理统计知识(二),我们定义它的熵为

数据挖掘中所需的概率论与数理统计知识(二)

    如果给定一个分布函数数据挖掘中所需的概率论与数理统计知识(二)的均值数据挖掘中所需的概率论与数理统计知识(二)和方差数据挖掘中所需的概率论与数理统计知识(二)(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最大的概率分布数据挖掘中所需的概率论与数理统计知识(二)就是正态分布数据挖掘中所需的概率论与数理统计知识(二)
    这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。
    考虑两个概率分布
数据挖掘中所需的概率论与数理统计知识(二)数据挖掘中所需的概率论与数理统计知识(二),使用不等式数据挖掘中所需的概率论与数理统计知识(二),得

数据挖掘中所需的概率论与数理统计知识(二)

    于是

数据挖掘中所需的概率论与数理统计知识(二)

      (读者注意:经好友白石指正,上述等式,右边的第一项p(x)之后,1/p(x) 之前少画了个log符号)

    所以

数据挖掘中所需的概率论与数理统计知识(二)

    熟悉信息论的读者都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号只有取数据挖掘中所需的概率论与数理统计知识(二)
    对于
数据挖掘中所需的概率论与数理统计知识(二),在给定的均值数据挖掘中所需的概率论与数理统计知识(二)和方差数据挖掘中所需的概率论与数理统计知识(二)下,我们取数据挖掘中所需的概率论与数理统计知识(二),则可以得到

数据挖掘中所需的概率论与数理统计知识(二)

    由于数据挖掘中所需的概率论与数理统计知识(二)的均值方差有如下限制:数据挖掘中所需的概率论与数理统计知识(二),于是

数据挖掘中所需的概率论与数理统计知识(二)

    而当的时候,上式可以取到等号,这就证明了结论。


    E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。

   所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:
    Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré

    OK,虽然上文已经花了如此多的篇幅讲了那么多的概念,事实上,在概率论与数理统计中,上文所讲的概念尚不到1/3,限于篇幅,还有诸多概念没有阐述完毕,如下图所示:



参考文献及推荐阅读

  1. 高等数学第六版上下册,同济大学数学系编;

  2. 微积分概念发展史,[美] 卡尔·B·波耶 著,唐生 译;

  3. 概率论与数理统计,高教版,盛骤等编;

  4. 浙大版概率论与数理统计电子PPT课件;

  5. 数理统计学简史,陈希孺院士著;
    (极力推荐上书,相信每一个学概率统计的朋友都有必要看一看,同时,此书也是正态分布的前后今生这一系列的主要参考)

  6. rickjin,正态分布的前后今生:

  7. 正态分布的前后今生系列集成版上:,下:

  8. 大嘴巴漫谈数据挖掘:

  9. 误差论与最小平方法 & 数学传播,蔡聪明;

  10. 正态分布进入统计学的历史演化,吴江霞;

  11. Probability Theory & The Logic of Science (概率论沉思录),E.T. Jaynes 著; 

  12. 手写数学公式编辑器:

  13. wikipedia上标准差:

  14. 泊松分布与概率分布:



以上是关于数据挖掘中所需的概率论与数理统计知识的主要内容,如果未能解决你的问题,请参考以下文章

大数据相关职位的知识储备与系统学习路线规划以及所需时间

Python数据分析与挖掘所需的Pandas常用知识

如何从另一个表中获取数据并插入到 EF Core 中所需的表中

您的 android 清单中所需的元数据标记不存在。 MobileAds.initialize() 处的应用程序崩溃;

清华硕士分享思维导图:机器学习所需的数学基础

Hadoop 计算所有拆分中所需的术语