[概率论与数理统计]笔记:4.4 抽样分布

Posted feixianxing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[概率论与数理统计]笔记:4.4 抽样分布相关的知识,希望对你有一定的参考价值。

一大堆乱七八糟的定理的记录与证明。

4.4 抽样分布

正态总体的抽样分布

关注点:总体是正态分布,抽样,样本所构造的统计量的分布的相关研究。

单正态总体的抽样分布

定理

正态总体\\(X\\sim N(\\mu,\\sigma^2)\\)\\((X_1,X_2,\\cdots,X_n)\\)是样本,样本均值为\\(\\overlineX\\),样本方差为\\(S^2\\).

其中

\\[\\overlineX=\\frac1n\\sum\\limits_i=1^nX_i, \\]

\\[S^2 = \\frac1n-1\\sum\\limits_i=1^n(X_i-\\overlineX)^2 \\]

  1. \\(\\overlineX\\sim N(\\mu,\\frac\\sigma^2n)\\)

证明

\\[E\\overlineX=E(\\frac1n\\sum\\limits_i=1^nX_i) = \\frac1n\\sum\\limits_i=1^nEX_i=\\frac1nn\\mu = \\mu \\]

\\[D\\overlineX=D(\\frac1n\\sum\\limits_i=1^nX_i)=\\frac1n^2\\sum\\limits_i=1^nDX_i=\\frac1n^2n\\sigma^2=\\frac\\sigma^2n \\]

由于\\(\\overlineX=\\frac1n(X_1+X_2+\\cdots+X_n)\\),且\\((X_1+X_2+\\cdots+X_n)\\)服从正态分布,所以\\(\\overlineX\\)也服从正态分布。

再结合\\(E\\overlineX\\)\\(D\\overlineX\\)的值,所以\\(\\overlineX\\)服从参数为\\((\\mu,\\frac\\sigma^2n)\\)的正态分布。

理解

样本均值的方差比总体的方差小,并且样本容量(\\(n\\))越大,方差越小。

假设有100个随机数,

  • 当样本容量\\(n=2\\)时,可能刚好抽出两个很大的数,于是样本均值很大;也可能刚好抽出两个很小的数,于是样本均值很小,所以样本容量小会导致样本均值的方差大。
  • 当样本容量\\(n=98\\)时,每次抽样可能都是那么些数字,每次抽样可能就和上次抽样相差一两个数字,于是样本均值都差不多,也就是说样本均值的方差比较小。

推论

\\[U=\\frac\\overlineX-\\mu\\sigma/\\sqrtn\\sim N(0,1) \\]

因为\\(\\overlineX\\)服从正态分布,所以标准化之后就服从标准正态分布

  1. \\(\\fracn-1\\sigma^2S^2=\\frac1\\sigma^2\\sum\\limits_i=1^n(X_i-\\overlineX)\\sim \\chi^2(n-1)\\)

  2. \\(\\overlineX\\)\\(S\\)相互独立。


另外一些定理
  1. \\(\\frac1\\sigma^2\\sum\\limits_i=1^n(X_i-\\mu)^2\\sim\\chi^2(n)\\)
  • \\(\\frac1\\sigma^2\\sum\\limits_i=1^n(X_i-\\overlineX)\\sim \\chi^2(n-1)\\)
  • \\(\\frac1\\sigma^2\\sum\\limits_i=1^n(X_i-\\mu)^2\\sim\\chi^2(n)\\)

这样两个定理的区别在于上面用的\\(\\overlineX\\)样本均值,下面的\\(\\mu\\)总体期望

上面的卡方分布的自由度是\\(n-1\\),下面的自由度是\\(n\\)

简单理解记忆:上面的定理有\\(\\overlineX=\\frac1n(X_1+\\cdots+X_n)\\),比下面的定理多出一个约束(方程)。

联系线性方程组的知识点,多一个方程就少一个自由未知量,因此自由度就比下面的少1.

  1. \\(\\frac\\overlineX-\\muS/\\sqrtn\\sim t(n-1)\\)

证明

前置知识:

  • 标准正态分布和卡方分布构成\\(t\\)分布:

    \\[X\\sim N(0,1),Y\\sim \\chi^2(n) \\]

    \\[\\fracX\\sqrtY/n\\sim t(n) \\]

结合上文的推论与定理:

\\[\\frac\\overlineX-\\mu\\sigma/\\sqrtn\\sim N(0,1) \\]

\\[\\frac(n-1)S^2\\sigma^2\\sim \\chi^2(n-1) \\]

因此

\\[\\frac \\frac\\overlineX-\\mu\\sigma/\\sqrtn \\sqrt \\frac(n-1)S^2\\sigma^2/n-1 \\sim t(n-1) \\]

又因为

\\[\\frac \\frac\\overlineX-\\mu\\sigma/\\sqrtn \\sqrt \\frac(n-1)S^2\\sigma^2/n-1 = \\frac\\frac\\overlineX-\\mu\\sigma/\\sqrtn\\fracS\\sigma =\\frac\\overlineX-\\muS/\\sqrtn \\]

所以

\\[\\frac\\overlineX-\\muS/\\sqrtn\\sim t(n-1) \\]


双正态总体的抽样分布

  • 两个总体:\\(X\\sim N(\\mu_1,\\sigma_1^2),Y\\sim N(\\mu_2,\\sigma_2^2)\\)

  • 分别抽样:\\((X_1,\\cdots,X_n_1)\\)\\((Y_1,\\cdots,Y_n_2)\\),(两个样本的容量不一样,分别是\\(n_1\\)\\(n_2\\))

  • 样本均值:\\(\\overlineX,\\overlineY\\)

  • 样本方差:\\(S_1^2,S_2^2\\)

定理

\\[U=\\frac(\\overlineX-\\overlineY)-(\\mu_1-\\mu_2)\\sqrt\\frac\\sigma_1^2n_1+\\frac\\sigma_2^2n_2\\sim N(0,1) \\]

证明

根据上面单正态总体关于样本均值的定理,有

  • \\(\\overlineX\\sim N(\\mu_1,\\frac\\sigma_1^2n_1)\\)
  • \\(\\overlineY\\sim N(\\mu_2,\\frac\\sigma_2^2n_2)\\)

再根据正态分布的线性可加性,有

\\[\\overlineX-\\overlineY\\sim N(\\mu_1-\\mu_2,\\frac\\sigma_1^2n_1-\\frac\\sigma_2^2n_2) \\]

标准化,就得到了上面的定理。

\\[F=\\fracS_1^2/\\sigma_1^2S_2^2/\\sigma_2^2\\sim F(n_1-1,n_2-2) \\]

证明

前置知识点:

\\(F\\)分布

\\(X\\sim \\chi^2(n_1),Y\\sim \\chi^2(n_2)\\)

\\(\\fracX/n_1Y/n_2\\sim F(n_1,n_2)\\)

根据上面单正态总体关于样本方差的定理,有

  • \\(\\frac(n_1-1)S_1^2\\sigma_1^2\\sim \\chi^2(n_1-1)\\)
  • \\(\\frac(n_2-1)S_2^2\\sigma_2^2\\sim \\chi^2(n_2-1)\\)

于是

\\[\\frac \\frac(n_1-1)S_1^2\\sigma_1^2/(n_1-1) \\frac(n_2-1)S_2^2\\sigma_2^2/(n_2-1) \\sim F(n_1-1,n_2-1) \\]

因此

\\[\\fracS_1^2/\\sigma_1^2S_2^2/\\sigma_2^2\\sim F(n_1-1,n_2-2) \\]

使用教材:
《概率论与数理统计》第四版 中国人民大学 龙永红 主编 高等教育出版社

以上是关于[概率论与数理统计]笔记:4.4 抽样分布的主要内容,如果未能解决你的问题,请参考以下文章

概率论与数理统计笔记 第二章 随机变量及其概率分布

[概率论与数理统计]笔记:3.2 条件分布与随机变量的独立性

4. 抽样分布—卡方分布F分布t分布Beta分布Gamma分布——python实战

[概率论与数理统计]笔记:4.3 常用的统计分布

概率论与数理统计猴博士 笔记 p29-32 均匀分布泊松分布指数分布几何分布

[概率论与数理统计]笔记:3.3 随机向量的函数的分布与数学期望