大数定律中心极限定理点估计区间估计

Posted hellobigorange

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数定律中心极限定理点估计区间估计相关的知识,希望对你有一定的参考价值。

首先,以统计全国平均身高引入大数定律和中心极限定理:

我们要调查全国人口(假设有P人( X 1 , X 2 , . . . , X P X_1,X_2,...,X_P X1,X2,...,XP),且服从均匀分布,均值 μ \\mu μ,方差 δ 2 \\delta^2 δ2)的平均身高:

  • 大数定律
    现在抽样调查了n个人,大数定律的思想告诉我们:当样本量n足够大时,样本均值可以近似总体均值(( Σ i = 1 n X i n = μ , n → ∞ \\frac{\\Sigma_{i=1}^nX_i}{n} = \\mu, n \\to \\infty nΣi=1nXi=μ,n,这样我们会得到全国人口的平均身高。

  • 中心极限定理
    中心极限的思想重复抽样N次,每次取样n人并计算样本均值,当n足够大时,样本均值(看作一个新的随机变量)( Σ i = 1 n X i n \\frac{\\Sigma_{i=1}^nX_i}{n} nΣi=1nXi)服从正态分布( N ( μ , δ 2 / n ) N(\\mu,\\delta^2/n) N(μ,δ2/n))。

  • 点估计
    给出平均身高的估计值,但不能给出估计值偏离真实值的程度。

  • 区间估计:95%的置信水平认为全国人口身高落在[164,165.5]

    • 置信区间:随机抽样n个人,计算样本均值和标准误差(标准差/ ( n ) \\sqrt(n) ( n)),确定需要的置信水平,根据这三者可以确定该置信水平下的置信空间。
    • 置信水平:落在置信区间的可信度
      直观理解我们最常用的95%置信水平,就是说做100次抽样,每次抽样n个人,计算置信区间,有95次的置信区间包含了总体均值。
# 验证大数定律
import numpy as np
import matplotlib.pyplot as plt

#假设总体身高服从均匀分布,N=10000,均值(150+180)/2
data = np.random.randint(150,180,10000) 
means = []
for i in range(1,10000):
    means.append(np.mean(data[:i]))
plt.plot(means)
plt.plot([0,10000],[165,165])
plt.show()

# 验证中心极限
import numpy as np
import matplotlib.pyplot as plt

#假设总体身高服从均匀分布,N=10000,均值(150+180)/2
data = np.random.randint(150,180,10000) 
#进行6000次取样
means = []
for i in range(6000):
    tmp = np.random.choice(data,size = 1000)
    means.append(tmp.mean())
#绘制均值们的直方图
plt.grid()
plt.hist(means,30)
plt.show()

结合上面两个图,重复实验6000次,大概有95%的样本均值都会落在[164,165.5]的区间内。其实,区间估计就是根据中心极限定理得到的。

以上是关于大数定律中心极限定理点估计区间估计的主要内容,如果未能解决你的问题,请参考以下文章

数学基础篇--详解人工智能之数学 积分学,概率空间,大数定律和中心极限定理

概率统计 有人知道极大似然估计 是啥道理吗

大数定律与中心极限定理

概率论与数理统计:大数定律与中心极限定律

大数定律与中心极限定理

应用统计学大数定律和中心极限定律