大数定律具体是个什么概念?

Posted 张纯睿

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数定律具体是个什么概念?相关的知识,希望对你有一定的参考价值。

http://www.tohuo.com/t/1225

https://www.zhihu.com/question/19911209/answer/876481176

大数定律具体是个什么概念?

(切比雪夫大数定律、伯努利大树定律、辛钦大数定律)and中心极限定理又是个什么概念?(列维—林德伯格定理、棣莫弗—拉普拉斯定理) 
书上只有那些蛋疼的定义式,加上前面引入大数定律的“依概率收敛”和“切比雪夫不等式”,让我只能强记公式,完全没有一个形象的理解。望达人解释~
 
作者:慕弋云子
链接:https://www.zhihu.com/question/19911209/answer/876481176
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

考研党来尝试着回答一下这个问题。

最近正好在做总结归纳,就把我的一些心得体会写一下,希望能对题主,以及所有被这几个定律搞的十分头痛的人有所帮助。

我一看到这三个定律和两个定理,也很头疼——这根本就记不住啊!但其实当我真的学到这里的时候,才发现,其实这是很有规律可言的。教材之所以会把这几个定律、定理放到一起,私以为,一是因为其逻辑上的一脉相承,二是因为其重要程度在概率论与数理统计当中举足轻重,三更是因为其互相之间也存在着许多的联系与区别。

让我们来一起看一看这几个定律、定理。我会尽量地把这个东西讲的通俗易懂、生动形象,能够让更多的人理解。确实,我也很认同定义式、数学语言读起来是有些佶屈聱牙的。

 

研究一个数学定理,一定要抓住这几点核心:

1.前提条件,或者说研究对象,这个定理是对谁而言的;

2.结论,在给出了前提下,会有什么神奇的结论;

3.数学意义,也就是这个定理到底发挥了什么实际作用,如果这个定理没什么用处那也就不值得这么多人去学习和研究了嘛。

 

其实抓住这几点要素之后,就很好理解这几个定律、定理了。

 

一、依概率收敛

在我们学习这几个大数定律和中心极限定理之前,必须先明白一个事情——什么叫依概率收敛?

不知道各位在学习概率论之初是不是也有我这样的想法:在实验次数足够多的情况下,频率就会非常接近概率。我们也是依此得到了很多事情发生的概率,比如说抛硬币、等等。最典型的诸如蒲丰投针计算圆周率。

那么这个式子不就是这样的吗:

技术图片

其中,m为事件发生的次数,n为实验的次数。

 

很好,但依概率收敛告诉你这样是不严谨的。

这个地方我是这样去理解的:就以抛硬币为例,假如说我们实验的次数已经非常大了,那么这个概率的值可能会像下图蓝线一样波动,黑线是 技术图片 时。

技术图片

 

所以说,随着实验的进行,这个比值也是一直在波动的,它无法与黑线高度地重合,只要我们放大、再放大。

而依概率收敛,就好像极限里的技术图片 语言一样,虽然你在动,那我们画条线,你总超不出去了吧——或者说,就算你真的超出了这条线,这也是一个小概率事件,这就是依概率收敛的意思。看图更直观:

技术图片

数学表达式就是,对于 技术图片 有:

技术图片

(即越界是小概率事件)

技术图片

(即绝大部分是在界内的)

 

二、Chebyshev大数定律

就算你仍然对依概率收敛表示疑惑,也没关系,这也不太妨碍你去理解这几个大数定律。让我们先来看Chebyshev大数定律,对每个定律我们都把之前提到的三个要素摆出来以方便对比。

2.1前提条件

技术图片 相互独立(注意:不要求同分布!)

技术图片 存在且一致有上界(严谨表述: 技术图片 使 技术图片 对一切 技术图片 成立)

2.2结论

技术图片

2.3数学意义

算数平均值依概率收敛于数学期望

 

对于这个数学意义,如果我们拍脑子一想,这似乎是很显然的,但又好像讲不出为什么。

我们不说抛硬币这么“单一”的事情——我们这次说做实验测重力加速度。测的方法有很多,但最后得出的数据应该都是在 技术图片 附近徘徊,然后我们处理数据,一拍脑袋就把他们加权(算数平均值)了,然后断言:啊,这就是我们“期望”的重力加速度!

可你有没有想过,为什么测出数据的算数平均值就可以接近真实值呢?

事实上,当我们中学做物理实验的时候,就已经用到了Chebyshev大数定律而不自知。这种算数平均值依概率收敛为数学期望的理论依据,就是Chebyshev大数定律。

总的来说,Chebyshev大数定律的要求比较弱,甚至连同分布也不用。

 

三、Bernoulli大数定律

我们再来看Bernoulli大数定律,这是概率论历史上第一个极限定理,属于Chebyshev的一种特殊情况,可以由Chebyshev推出。

3.1前提条件

技术图片是n重Bernoulli实验中事件A的发生次数

②每次试验A发生的概率为p

所谓n重Bernoulli实验,就是“不成功便成仁”,独立重复地进行n次实验,成功了就是1,不成功就是0。所以我们把这两个前提条件照着Chebyshev翻译一下就是:

技术图片 相互独立且都服从于参数为p的0-1分布

技术图片

3.2结论

技术图片

3.3数学意义

频率依概率收敛于统计概率

3.4如何从Chebyshev推出Bernoulli

我们该如何理解Bernoulli大数定律这个结论和其数学意义呢?

事实上,当你把 技术图片 的分布带入Chebyshev大数定律,奇妙的事情就会发生了:

技术图片 相互独立(甚至还同分布),这满足了Chebyshev的条件①

技术图片 (0-1分布的方差公式,配合柯西不等式),这满足了Chebyshev的条件②

那么我们可以代入Chebyshev不等式的结论了:

技术图片 这东西是啥?对于0-1分布,发生了就是1,那么把所有的 技术图片 求和不就是发生的次数了吗,于是 技术图片 也就是 技术图片 (事件A的发生次数);

Chebyshev说,算数平均值依概率收敛于数学期望,那么数学期望不就是p嘛(0-1分布的期望公式),于是我们就得到了Bernoulli大数定律。

 

四、Khinchin大数定律

这个定律可以和Chebyshev对比着看,两者的关系相对来讲是比较“并列”的。

4.1前提条件

技术图片 相互独立且同分布

技术图片 存在

4.2结论

技术图片

4.3数学意义

算数平均值稳定于数学期望的确切解释

 

诶等等!停!你这个Khinchin大数定律左边怎么和Chebyshev一样啊,右边看起来也是一个意思,都是俄罗斯人也不能这么玩儿吧!

不好意思,还真就可以这么玩儿,因为这两者的前提条件不一样,或者说讨论对象不一样,不存在谁包含谁的问题。

简言之,一个只要求独立和方差上界、另一个却要求独立同分布和期望存在。

虽然推出的结论看起来差不多,但其实际意义是并不一样的,就比如Chebyshev对于不同分布还可以进行期望求算数平均值,而Khinchin在方差不存在时也可以使用。具体的反例就不在此举出了,并不是本文的重点。

这时候可能又要有人问了,之前我们处理重力加速度数据的时候,到底用的是哪个大数定律?

那当然是,满足哪个条件用哪个。甚至,你还可以统而言之为:根据大数定律。

 

五、Levi-Lindeberg定理(中心极限定理)

5.1前提条件

技术图片相互独立且同分布

技术图片存在

5.2结论

则对于 技术图片 有:

技术图片

也即技术图片 求和近似服从正态分布:

技术图片

(波浪线上应该有“近似”两字,我不知道怎么打上去hhh)

5.3数学意义

实际上,那个长长的极限式子就是一个纸老虎,先看下边那个更简洁一些的式子:近似服从于正态分布。

Levi-Lindeberg定理揭示了一个非常重要的道理:当n足够大的时候,我们可以把任何一个奇奇怪怪(期望方差要存在)的分布,搞成一个正态分布,而正态分布是我们喜欢的东西啊,大大简化了我们的研究量。

而这个奇奇怪怪的分布的随机变量和,是近似服从于期望为 技术图片,方差为 技术图片的正态分布的。

而遇到一个正态分布——请养成习惯把它标准化,于是也就出现了上面那一大长串式子。

事实上, 技术图片内的东西,就是标准化的操作(减去期望除以方差开根号),而右边就是根据分布函数定义推得的表达式与分布函数,你应该早已经在前面的学习中司空见惯了。

另外,Levi-Lindeberg也从侧面解释了为什么大自然这么喜欢正态分布、为什么生活中有这么多正态分布——因为样本量大啊,加着加着就变成正态了。

所以,有了Levi-Lindeberg定理之后,统计学家们就只需要去着重研究正态分布,就可以轻松地处理广泛而奇特的分布了,从这个角度讲,这个定理的现实意义也是十分伟大的。

 

六、De Moivre-Laplace定理

6.1前提条件

技术图片

别看这个前提条件就一句话,但数学语言就是这样,蕴含着丰富的信息:De Moivre-Laplace定理其实就是Levi-Lindeberg的特殊情况。

你看 技术图片 服从二项分布,那么它不就是① 技术图片 相互独立且同分布,且② 技术图片存在的吗,也就是说,完全满足了Levi-Lindeberg的两个条件——实际上,我们就是在把一个二项分布,尝试转为正态分布去研究。

 

6.2结论

那么自然而言地,我们可以套用Levi-Lindeberg的结论:

对于 技术图片 有:

技术图片

也即:

技术图片

6.3数学意义

Levi-Lindeberg的技术图片情况

 

好了,那么接下来到了找不同时间。细心的同学就会发现,减去期望除以方差开根号这个操作,没有任何毛病,但是在Levi-Lindeberg当中可是 技术图片 ,怎么在De Moivre-Laplace当中就变成了单独一个 技术图片 了呢,而不是对 技术图片 求和呢?

这个问题提的非常好,因为这更加突出了Levi-Lindeberg定理的一个重点:我们只能对“求和”进行处理,而一个单纯的分布我们是很难操作的。而De Moivre-Laplace定理却巧妙地处理了一个单独的分布——不过也正是因为二项分布十分的特殊:

类似我们之前由Chebyshev推Bernoulli大数定律的时候用的一个操作,引入Bernoulli计数变量(这个操作在概率论当中其实是非常经典和应用广泛的):

设有 技术图片 相互独立且都服从于参数为p的0-1分布

技术图片

再让 技术图片 等于这些0-1分布随机变量的和,就会有:

技术图片

(即:A发生的次数为k次,发生的概率为p,那自然是一个二项分布了)

再代入Levi-Lindeberg定理,就可以得到6.2的结论了。

 

以上就是对三个大数定律和两个中心极限定理的解读。可以说这几个定律、定理在整个概率论与数理统计中有着举足轻重的定位,如果你真的理解了它们,那么其重要程度,应该也就不言而喻了,尤其在后续学习数理统计内容中,如何处理简单随机样本的均值、方差等数据,都会频繁地用到Levi-Lindeberg定理,大数定律也是矩估计的理论基础,并且和生活(尤其是赌博hhh)的关系也更加贴切。

就像无间道里的扑克牌:

技术图片陆警官和黄sir比谁点数小,但每次两个人都是K技术图片其实陆警官早就知道了,只是把黄sir当兄弟

黄sir,你当我陆警官没学过大数定律?

 
 

以上是关于大数定律具体是个什么概念?的主要内容,如果未能解决你的问题,请参考以下文章

[概率论与数理统计]笔记:3.5 大数定律与中心极限定理

统计和数学中常见的定理汇总 | 大数定律 | 中心极限定理

概率论与数理统计:大数定律与中心极限定律

大数定律

应用统计学大数定律和中心极限定律

应用统计学大数定律和中心极限定律