大数定律中心极限定理点估计区间估计
Posted hellobigorange
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数定律中心极限定理点估计区间估计相关的知识,希望对你有一定的参考价值。
首先,以统计全国平均身高引入大数定律和中心极限定理:
我们要调查全国人口(假设有P人( X 1 , X 2 , . . . , X P X_1,X_2,...,X_P X1,X2,...,XP),且服从均匀分布,均值 μ \\mu μ,方差 δ 2 \\delta^2 δ2)的平均身高:
-
大数定律
现在抽样调查了n个人,大数定律的思想告诉我们:当样本量n足够大时,样本均值可以近似总体均值(( Σ i = 1 n X i n = μ , n → ∞ \\frac{\\Sigma_{i=1}^nX_i}{n} = \\mu, n \\to \\infty nΣi=1nXi=μ,n→∞),这样我们会得到全国人口的平均身高。 -
中心极限定理
中心极限的思想重复抽样N次,每次取样n人并计算样本均值,当n足够大时,样本均值(看作一个新的随机变量)( Σ i = 1 n X i n \\frac{\\Sigma_{i=1}^nX_i}{n} nΣi=1nXi)服从正态分布( N ( μ , δ 2 / n ) N(\\mu,\\delta^2/n) N(μ,δ2/n))。 -
点估计
给出平均身高的估计值,但不能给出估计值偏离真实值的程度。 -
区间估计:95%的置信水平认为全国人口身高落在[164,165.5]
- 置信区间:随机抽样n个人,计算样本均值和标准误差(标准差/ ( n ) \\sqrt(n) (n)),确定需要的置信水平,根据这三者可以确定该置信水平下的置信空间。
- 置信水平:落在置信区间的可信度
直观理解我们最常用的95%置信水平,就是说做100次抽样,每次抽样n个人,计算置信区间,有95次的置信区间包含了总体均值。
# 验证大数定律
import numpy as np
import matplotlib.pyplot as plt
#假设总体身高服从均匀分布,N=10000,均值(150+180)/2
data = np.random.randint(150,180,10000)
means = []
for i in range(1,10000):
means.append(np.mean(data[:i]))
plt.plot(means)
plt.plot([0,10000],[165,165])
plt.show()
# 验证中心极限
import numpy as np
import matplotlib.pyplot as plt
#假设总体身高服从均匀分布,N=10000,均值(150+180)/2
data = np.random.randint(150,180,10000)
#进行6000次取样
means = []
for i in range(6000):
tmp = np.random.choice(data,size = 1000)
means.append(tmp.mean())
#绘制均值们的直方图
plt.grid()
plt.hist(means,30)
plt.show()
结合上面两个图,重复实验6000次,大概有95%的样本均值都会落在[164,165.5]的区间内。其实,区间估计就是根据中心极限定理得到的。
以上是关于大数定律中心极限定理点估计区间估计的主要内容,如果未能解决你的问题,请参考以下文章