数据分析的统计基础5

Posted evian-jeff

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析的统计基础5相关的知识,希望对你有一定的参考价值。

样本均值、样本比例和样本方差的抽样分布

样本均值的抽样分布

  • 在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布
  • 一种理论概率分布
  • 推断总体均值\(\mu\)的理论基础
  • 大数定律表明:当来自于独立同分布(i.i.d)的总体(该总体均值为\(\mu\),方差为\(\sigma^2\))中\(n\)个随机变量\(X_1,X_2,...X_n\),其均值\(\bar X = n^-1\sum \limits_i=1^nX_i\),随着\(n \to \infty\),有\(E(\bar X)=\mu,Var(\bar X) =\sigma^2/n\),中心极限定理告诉表明:随着\(n \to \infty\)\(\bar X = n^-1\sum \limits_i=1^nX_i\)近似服从正态分布。综合两者有:\(\bar X = n^-1\sum \limits_i=1^nX_i \sim N(\mu,\sigma^2/n)\)

两样本均值差的分布

  • 两个总体都为正态分布,即$ X_1 \sim N(\mu_1 ,\sigma_1^2)?$ ,$ X_2 \sim N(\mu_2 ,\sigma_2^2 )?$

  • 两个样本均值之差\(\bar X_1 - \bar X_2?\)的抽样分布服从正态分布,即\(\bar X_1 - \bar X_2 \sim N(\mu_1-\mu_2,\sigma_1^2/n_1 + \sigma_2^2/n_2)?\),其分布的数学期望和方差分别为:
    \[ E(\bar X_1 - \bar X_2) = E(\bar X_1 - \bar X_2) = \mu_1 - \mu_2 \]

    \[ Var(\bar X_1 - \bar X_2) = \frac\sigma_1^2n_1 + \frac\sigma_2^2n_2 \]

  • 特别地,若\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)时,有:
    \[ \frac(\bar X_1 - \bar X_2 ) - (\mu_1 - \mu_2)s_\omega \sqrt\frac1n_1+\frac1n_2 \sim t(n_1+n_2-2) \]
    其中\(s_\omega^2 = \frac(n_1-1)s_1^2 + (n_2 - 1)s_2^2(n_1-1)+(n_2-1)\)

样本比例的抽样分布

  • 总体比例:\(\pi = N_0 / N\),具有\(0\)类特征的数量\(N_0\)与总体所有的数量\(N\),样本比例:$p = n_0 / n $

  • 在重复选取容量为n的样本时,由样本比例的所 有可能取值形成的相对频数分布

  • 一种理论概率分布

  • 推断总体比例\(\pi\)的理论基础

  • 样本比例的均值满足:\(E(p) = \pi\),样本比例的方差需要关注有放回(重复)抽样和无放回(不重复)抽样的问题

    • 重复抽样(独立同分布):

    • \[ Var(p) = \frac\pi (1 - \pi)n \]

    • 不重复抽样:

    • \[ Var(p) = \frac\pi (1-\pi)n \fracN-nN-1 ,\fracN-nN-1 被称为有限总体校验,当n<<N时,可以忽略 \]

  • 当样本容量很大时,样本比例的抽样分布可用正态分布近似当样本容量很大时,样本比例的抽样分布可用正态分布近似

棣莫弗-拉普拉斯中心极限定理:设\(X_1,X_2,...X_n,...\)是独立同分布(independently identically distribution)的随机变量,\(X_i\)的分布是\(P(X_i=1)=p\)\(P(X_i=0) = 1- p\),$ 0 < p < 1$。

则对任何实数\(x\),有
\[ \lim_n \to \infty P\left( \frac\sum \limits_i=1^nX_i - np\sqrtnp(1-p) \leq x \right) = \Phi(x) \]
单个\(X_i\)服从伯努利分布,可以理解为属于某个特征和不属于某个特征,其满足\(\mu = p,\sigma^2 = p(1-p)\)\(E(\sum \limits_i=1^nX_i) = np,Var(\sum \limits_i=1^nX_i) = np(1-p)\)。上式(证明从略),又表明当\(n \to \infty\)时,\(\sum \limits_i=1^n近似服从正态分布,\)\(\sum \limits_i=1^nX_i) \sim N(np,np(1-p))\),上式还可以改写为:
\[ \lim \limits _n \to \inftyP\left(\frac\bar X - p\sqrtp(1-p)/n \leq x \right) = \Phi(x) \]
对于\(n\)个伯努利随机变量,\(\bar X = n^-1\sum \limits_i=1^nX_i\)的实际意义即为\(X_i\)为"\(1\)" 类的占比。

样本方差的抽样分布

  • 在重复选取容量为\(n?\)的样本时, 由样本方差的所有可能取值形成的相对频数分布
  • 对于来自正态总体的简单随机样本, 则比值\(\frac(n-1)s^2\sigma^2 \sim \chi_n-1^2\)

两个样本方差比的分布

  • 两个总体都为正态分布,即$ X_1 \sim N(\mu_1 ,\sigma_1^2)$ ,$ X_2 \sim N(\mu_2 ,\sigma_2^2 )$

  • 从两个总体中分别抽取容量为\(n_1?\)\(n_2?\)的独立样本

  • 两个样本方差比的抽样分布, 服从分子自由度为 \((n_1-1)\), 分母自由度为\((n_2-1)\)\(F\)分布

说明:
\[ \frac(n_1-1)s_1^2\sigma_1^2 \sim \chi_n_1-1^2 , \frac(n_2-1)s_2^2\sigma_2^2 \sim \chi_n_2-1^2 \]

根据\(F\)分布的定义,上式相除有:
\[ \fracs_1^2/s_2^2\sigma_1^2/\sigma_2^2 \sim F(n_1-1,n_2-1) \]

以上是关于数据分析的统计基础5的主要内容,如果未能解决你的问题,请参考以下文章

R语言基础题及答案——R语言与统计分析第三章课后习题(汤银才)

小5聊Sql Server基础之统计库龄语句,仅作为语句使用

R语言基础题及答案——R语言与统计分析第二章课后习题(汤银才)

R语言基础题及答案——R语言与统计分析第二章课后习题(汤银才)

Numpy基础(day2)随机函数及统计函数

Numpy基础(day2)随机函数及统计函数