数据分析的统计基础5

Posted 2022-08-22 evian-jeff

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据分析的统计基础5相关的知识，希望对你有一定的参考价值。

样本均值、样本比例和样本方差的抽样分布

样本均值的抽样分布

在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布
一种理论概率分布
推断总体均值$\mu$的理论基础
大数定律表明：当来自于独立同分布(i.i.d)的总体(该总体均值为$\mu$，方差为$\sigma^2$)中$n$个随机变量$X_1,X_2,...X_n$，其均值$\bar X = n^-1\sum \limits_i=1^nX_i$，随着$n \to \infty$，有$E(\bar X)=\mu，Var(\bar X) =\sigma^2/n$，中心极限定理告诉表明：随着$n \to \infty$，$\bar X = n^-1\sum \limits_i=1^nX_i$近似服从正态分布。综合两者有：$\bar X = n^-1\sum \limits_i=1^nX_i \sim N(\mu,\sigma^2/n)$

两样本均值差的分布

两个总体都为正态分布，即$ X_1 \sim N(\mu_1 ,\sigma_1^2)?$ ，$ X_2 \sim N(\mu_2 ,\sigma_2^2 )?$
两个样本均值之差$\bar X_1 - \bar X_2?$的抽样分布服从正态分布,即$\bar X_1 - \bar X_2 \sim N(\mu_1-\mu_2,\sigma_1^2/n_1 + \sigma_2^2/n_2)?$，其分布的数学期望和方差分别为：
\[ E(\bar X_1 - \bar X_2) = E(\bar X_1 - \bar X_2) = \mu_1 - \mu_2 \]

\[ Var(\bar X_1 - \bar X_2) = \frac\sigma_1^2n_1 + \frac\sigma_2^2n_2 \]
特别地，若$\sigma_1^2 = \sigma_2^2 = \sigma^2$时，有：
\[ \frac(\bar X_1 - \bar X_2 ) - (\mu_1 - \mu_2)s_\omega \sqrt\frac1n_1+\frac1n_2 \sim t(n_1+n_2-2) \]
其中$s_\omega^2 = \frac(n_1-1)s_1^2 + (n_2 - 1)s_2^2(n_1-1)+(n_2-1)$

样本比例的抽样分布

总体比例：$\pi = N_0 / N$，具有$0$类特征的数量$N_0$与总体所有的数量$N$，样本比例：$p = n_0 / n $
在重复选取容量为n的样本时，由样本比例的所有可能取值形成的相对频数分布
一种理论概率分布
推断总体比例$\pi$的理论基础
样本比例的均值满足：$E(p) = \pi$，样本比例的方差需要关注有放回(重复)抽样和无放回(不重复)抽样的问题
- 重复抽样(独立同分布)：
- \[ Var(p) = \frac\pi (1 - \pi)n \]
- 不重复抽样：
- \[ Var(p) = \frac\pi (1-\pi)n \fracN-nN-1 ，\fracN-nN-1 被称为有限总体校验，当n<<N时，可以忽略 \]
当样本容量很大时，样本比例的抽样分布可用正态分布近似当样本容量很大时，样本比例的抽样分布可用正态分布近似

棣莫弗-拉普拉斯中心极限定理：设$X_1,X_2,...X_n,...$是独立同分布(independently identically distribution)的随机变量，$X_i$的分布是$P(X_i=1)=p$，$P(X_i=0) = 1- p$，$ 0 < p < 1$。

则对任何实数$x$，有
\[ \lim_n \to \infty P\left( \frac\sum \limits_i=1^nX_i - np\sqrtnp(1-p) \leq x \right) = \Phi(x) \]
单个$X_i$服从伯努利分布，可以理解为属于某个特征和不属于某个特征，其满足$\mu = p，\sigma^2 = p(1-p)$。$E(\sum \limits_i=1^nX_i) = np，Var(\sum \limits_i=1^nX_i) = np(1-p)$。上式(证明从略)，又表明当$n \to \infty$时，$\sum \limits_i=1^n近似服从正态分布，$$\sum \limits_i=1^nX_i) \sim N(np,np(1-p))$，上式还可以改写为：
\[ \lim \limits _n \to \inftyP\left(\frac\bar X - p\sqrtp(1-p)/n \leq x \right) = \Phi(x) \]
对于$n$个伯努利随机变量，$\bar X = n^-1\sum \limits_i=1^nX_i$的实际意义即为$X_i$为"$1$" 类的占比。

样本方差的抽样分布

在重复选取容量为$n?$的样本时，由样本方差的所有可能取值形成的相对频数分布
对于来自正态总体的简单随机样本，则比值$\frac(n-1)s^2\sigma^2 \sim \chi_n-1^2$

两个样本方差比的分布

两个总体都为正态分布，即$ X_1 \sim N(\mu_1 ,\sigma_1^2)$ ，$ X_2 \sim N(\mu_2 ,\sigma_2^2 )$
从两个总体中分别抽取容量为$n_1?$和$n_2?$的独立样本
两个样本方差比的抽样分布，服从分子自由度为 $(n_1-1)$，分母自由度为$(n_2-1)$ 的$F$分布

说明：
\[ \frac(n_1-1)s_1^2\sigma_1^2 \sim \chi_n_1-1^2 ， \frac(n_2-1)s_2^2\sigma_2^2 \sim \chi_n_2-1^2 \]

根据$F$分布的定义，上式相除有：
\[ \fracs_1^2/s_2^2\sigma_1^2/\sigma_2^2 \sim F(n_1-1,n_2-1) \]

以上是关于数据分析的统计基础5的主要内容，如果未能解决你的问题，请参考以下文章