概率统计之统计部分抄ppt
Posted skyh
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了概率统计之统计部分抄ppt相关的知识,希望对你有一定的参考价值。
统计基础
统计量
定义:样本不依赖于位置参数的函数
常用统计量:
- 样本均值:\\(\\bar X = \\sum_i X_i / n\\)
- 样本方差:\\(S^2 = \\sum_i (X_i - \\bar X)^2 / (n-1)\\),这是对 \\(X_i\\) 方差的无偏估计量。
- \\(k\\) 阶矩:\\(A_k\\)
- \\(k\\) 阶中心矩:\\(B_k\\)
重要分布
\\(\\chi^2\\) 分布
设 \\(n\\) 个服从标准正态分布相互独立随机变量的平方和为 \\(\\chi^2_n\\),则称 \\(\\chi^2_n\\) 服从自由度为 \\(n\\) 的 \\(\\chi^2\\) 分布,记为 \\(\\chi^2_n \\sim \\chi^2(n)\\)。
自由度为 \\(n\\) 的 \\(\\chi^2\\) 分布的上 \\(\\alpha\\) 分位数记为 \\(\\chi^2_a(n)\\)。
例题结论:
-
正态分布独立样本条件下,\\(\\bar X\\) 与 \\(S^2\\) 相独立。证明过程大概如下:
-
\\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\)
-
以上两个结论的证明(可以直接看最后一项):
-
先取 \\(Y_1\\) 为均值(即 \\(\\bar X\\)),再取 \\(Y_2 \\dots Y_n\\) 以表示出 \\(S^2\\)。取 \\(Y_2\\),由于要求与 \\(Y_1\\) 不相关(我们不妨假设 \\(Y_2\\) 只与 \\(X_1, X_2\\) 有关),在保证单位向量的情况下系数唯一。接着取 \\(Y_3\\),其与 \\(Y_1\\) 不应当相关(这是与均值独立的要求),与 \\(Y_2\\) 也不应当相关(保证变量相互独立,以证明下一题),因此可以列出形如 \\(A_31+A_32+A_33 = 0,A_31 = A_32, A_31^2+A_32^2+A_33^2=1\\) 三个方程,这又唯一确定了这三个系数。以此类推得到系数矩阵 \\(A\\)。
-
为什么这种方式使得 \\(Y_2^2 + \\dots + Y_n^2\\) 恰好表示出 \\(S^2\\)?不知道。
-
看了下lds课件,其实根本没必要以这种方式构造式的给出系数矩阵 \\(A\\)。直接取系数矩阵 \\(A\\) 的第一行为 \\(\\frac1\\sqrtn\\) 来表示均值,其他任取但保证单位正交。那么有 \\(\\sum Y_i^2 = Y^TY = X^TA^TAX = X^TX = \\sum X_i^2\\)。再由 \\(Y_1 = \\bar X \\sqrtn\\) 可得 \\(\\sum \\limits_i=2^nY_i^2 = \\sum X_i^2 - n\\bar X^2 = \\sum(X_i - \\bar X)^2\\)。因为正交的构造,也可以立得两个结论。
-
-
\\(\\chi^2_2\\sim Exp(1/2)\\)
\\(t\\) 分布
设 \\(X \\sim N(0,1), Y \\sim \\chi^2(n)\\) 且 \\(X, Y\\) 相互独立,\\(T = \\dfracX\\sqrt\\dfracYn\\),则称 \\(T\\) 服从自由度为 \\(n\\) 的 \\(t\\) 分布,记作 \\(T \\sim t(n)\\)。
统一量纲:分母应当开根号。
\\(t\\) 分布在自由度较大时近似为标准正态分布。
例题结论:
- \\(\\dfrac\\bar X - \\mu\\sqrt\\dfracS^2n \\sim t(n-1)\\)
- 已经证明两个变量相互独立,再根据 \\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\) 凑一下就可以了。
- 注意下面 \\(S\\) 除的是 \\(n\\),但凑出来的是 \\(t(n-1)\\)。
- 设 \\(T = \\dfrac(\\bar X - \\bar Y) - (\\mu_1 - \\mu_2)S_w\\sqrt\\frac1n_1 + \\frac1n_2\\),其中 \\(S_w^2 = \\dfrac(n_1-1)S_1^2 + (n_2-1)S_2^2n_1 + n_2 - 2\\)。则 \\(T \\sim t(n_1 + n_2 - 2)\\)。
- 取 \\(\\bar X - \\bar Y\\) 为正态分布,标准化。由于 \\(\\chi^2\\) 分布的可加性,将 \\(S_1^2, S_2^2\\) 分别拿出来凑一个 \\(\\chi^2\\) 分布。
F分布
设 \\(X \\sim \\chi^2(n_1), Y\\sim \\chi^2(n_2)\\) 且 \\(X, Y\\) 独立。称 \\(F = \\dfrac\\fracXn_1\\fracYn_2\\) 服从自由度为 \\((n_1, n_2)\\) 的 \\(F\\) 分布,记作 \\(F \\sim F(n_1, n_2)\\)。
\\(F(1, n)\\) 是 \\(t(n)\\) 的平方。
例题结论:
- \\(F = \\dfracS_1^2 / \\sigma_1^2S_2^2 / \\sigma_2^2 \\sim F(n_1 - 1, n_2 - 1)\\)
参数估计
点估计
定义:用简单随机样本统计量估计参数,称为点估计量。样本确定取值,用点估计量估计出的值称为点估计值。
矩法(矩估计)
用前 \\(k\\) 阶矩或中心矩,估计 \\(k\\) 个参数。
方法:先用参数表示前 \\(k\\) 阶(中心)矩,再反解出参数,代入样本即可。
极大似然估计
Bayes 公式:\\(P(\\theta|A) = \\dfracP(A|\\theta)P(\\theta)P(A)\\),现在样本 \\(A\\) 已知,如果假设 \\(P(\\theta)\\) 是均匀分布的,\\(\\textargmax\\ P(\\theta|A) = \\textargmax\\ P(A|\\theta)\\),因此极大似然。为了方便,取 \\(\\log\\) 是常用的方法。
估计量的标准
无偏性
无偏估计量、渐进无偏估计量
有效性
对于所有的 \\(\\theta\\),方差都不大。且存在一个 \\(\\theta\\) 方差小,则更有效。
均方误差原则
均方误差。
相合性
\\(\\hat \\theta\\) 收敛于 \\(\\theta\\)。
置信区间
定义:两个统计量夹住概率至少为 \\(\\alpha\\) 的参数取值区间,称 \\(\\alpha\\) 为置信度。双侧置信区间、单侧置信区间。
枢轴量
样本和待估参数的函数,但其分布只依赖于样本,不依赖于未知参数。
例如在独立同分布的总体中取样,根据中心极限定理,减均值除标准差后近似服从 \\(N(0, 1)\\) 分布,这与待估参数无关。
因此如果给定待估参数和样本,可以通过减均值除方差之后落入的点的概率来判断是否可信,即可信区间。
正态分布总体下区间估计
单个正态总体估计 X
已知 \\(\\sigma^2\\),估计 \\(\\mu\\)
用 \\(\\bar X\\),\\(\\dfrac\\bar X - \\mu\\sigma/\\sqrtn \\sim N(0, 1)\\)。
未知 \\(\\sigma^2\\),估计 \\(\\mu\\)
还要用 \\(\\bar X\\),但因为 \\(\\sigma\\) 未知,用样本标准差 \\(S\\) 代替,这也对应着 \\(t\\) 分布在自由度大时近似标准正态分布。
\\(\\dfrac\\bar X - \\muS / \\sqrtn \\sim t(n - 1)\\)。
未知 \\(\\mu\\),估计 \\(\\sigma^2\\)
\\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\)
两个正态总体估计 X,Y
已知 \\(\\sigma_1^2, \\sigma_2^2\\),估计 \\(\\mu_1 - \\mu_2\\)
把 \\(\\bar X - \\bar Y\\) 看成一个正态分布就行了。
\\(\\sigma_1 = \\sigma_2\\) 但未知,估计 \\(\\mu_1 - \\mu_2\\)
\\(T = \\dfrac(\\bar X - \\bar Y) - (\\mu_1 - \\mu_2)S_w\\sqrt\\frac1n_1 + \\frac1n_2 \\sim t(n_1 + n_2 - 2)\\)
\\(\\sigma_1 \\neq \\sigma_2\\) 且未知
如果充分大,用中心极限定理把 \\(\\bar X - \\bar Y\\) 近似成标准正态分布做。
对于有限小样本,\\(\\bar X - \\bar Y\\) 近似服从 \\(t(\\min\\n_1 - 1, n_2 - 1\\)\\)。
\\(\\mu_1, \\mu_2\\) 未知,估计 \\(\\sigma_1^2 / \\sigma_2^2\\)
\\(\\dfracS_1^2/S_2^2\\sigma_1^2/\\sigma_2^2 = \\dfracS_1^2 / \\sigma_1^2S_2^2 / \\sigma_2^2 \\sim F(n_1 - 1, n_2 - 1)\\)
以上是关于概率统计之统计部分抄ppt的主要内容,如果未能解决你的问题,请参考以下文章
《统计思维程序员数学之概率统计第2版》中英文PDF+数据代码+《面向数据科学家的实用统计学》中英文PDF+源代码+学习总结