概率统计之统计部分抄ppt

Posted skyh

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了概率统计之统计部分抄ppt相关的知识,希望对你有一定的参考价值。

写一写公式,尝试更好背一下,好像失败了

统计基础

统计量

定义:样本不依赖于位置参数的函数

常用统计量:

  • 样本均值:\\(\\bar X = \\sum_i X_i / n\\)
  • 样本方差:\\(S^2 = \\sum_i (X_i - \\bar X)^2 / (n-1)\\),这是对 \\(X_i\\) 方差的无偏估计量。
  • \\(k\\) 阶矩:\\(A_k\\)
  • \\(k\\) 阶中心矩:\\(B_k\\)

重要分布

\\(\\chi^2\\) 分布

\\(n\\) 个服从标准正态分布相互独立随机变量的平方和为 \\(\\chi^2_n\\),则称 \\(\\chi^2_n\\) 服从自由度为 \\(n\\)\\(\\chi^2\\) 分布,记为 \\(\\chi^2_n \\sim \\chi^2(n)\\)

自由度为 \\(n\\)\\(\\chi^2\\) 分布的上 \\(\\alpha\\) 分位数记为 \\(\\chi^2_a(n)\\)

例题结论:

  • 正态分布独立样本条件下,\\(\\bar X\\)\\(S^2\\) 相独立。证明过程大概如下:

  • \\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\)

    • 以上两个结论的证明(可以直接看最后一项):

    • 先取 \\(Y_1\\) 为均值(即 \\(\\bar X\\)),再取 \\(Y_2 \\dots Y_n\\) 以表示出 \\(S^2\\)。取 \\(Y_2\\),由于要求与 \\(Y_1\\) 不相关(我们不妨假设 \\(Y_2\\) 只与 \\(X_1, X_2\\) 有关),在保证单位向量的情况下系数唯一。接着取 \\(Y_3\\),其与 \\(Y_1\\) 不应当相关(这是与均值独立的要求),与 \\(Y_2\\) 也不应当相关(保证变量相互独立,以证明下一题),因此可以列出形如 \\(A_31+A_32+A_33 = 0,A_31 = A_32, A_31^2+A_32^2+A_33^2=1\\) 三个方程,这又唯一确定了这三个系数。以此类推得到系数矩阵 \\(A\\)

    • 为什么这种方式使得 \\(Y_2^2 + \\dots + Y_n^2\\) 恰好表示出 \\(S^2\\)?不知道。

    • 看了下lds课件,其实根本没必要以这种方式构造式的给出系数矩阵 \\(A\\)。直接取系数矩阵 \\(A\\) 的第一行为 \\(\\frac1\\sqrtn\\) 来表示均值,其他任取但保证单位正交。那么有 \\(\\sum Y_i^2 = Y^TY = X^TA^TAX = X^TX = \\sum X_i^2\\)。再由 \\(Y_1 = \\bar X \\sqrtn\\) 可得 \\(\\sum \\limits_i=2^nY_i^2 = \\sum X_i^2 - n\\bar X^2 = \\sum(X_i - \\bar X)^2\\)。因为正交的构造,也可以立得两个结论。

  • \\(\\chi^2_2\\sim Exp(1/2)\\)

\\(t\\) 分布

\\(X \\sim N(0,1), Y \\sim \\chi^2(n)\\)\\(X, Y\\) 相互独立,\\(T = \\dfracX\\sqrt\\dfracYn\\),则称 \\(T\\) 服从自由度为 \\(n\\)\\(t\\) 分布,记作 \\(T \\sim t(n)\\)

统一量纲:分母应当开根号。

\\(t\\) 分布在自由度较大时近似为标准正态分布。

例题结论:

  • \\(\\dfrac\\bar X - \\mu\\sqrt\\dfracS^2n \\sim t(n-1)\\)
    • 已经证明两个变量相互独立,再根据 \\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\) 凑一下就可以了。
    • 注意下面 \\(S\\) 除的是 \\(n\\),但凑出来的是 \\(t(n-1)\\)
  • \\(T = \\dfrac(\\bar X - \\bar Y) - (\\mu_1 - \\mu_2)S_w\\sqrt\\frac1n_1 + \\frac1n_2\\),其中 \\(S_w^2 = \\dfrac(n_1-1)S_1^2 + (n_2-1)S_2^2n_1 + n_2 - 2\\)。则 \\(T \\sim t(n_1 + n_2 - 2)\\)
    • \\(\\bar X - \\bar Y\\) 为正态分布,标准化。由于 \\(\\chi^2\\) 分布的可加性,将 \\(S_1^2, S_2^2\\) 分别拿出来凑一个 \\(\\chi^2\\) 分布。

F分布

\\(X \\sim \\chi^2(n_1), Y\\sim \\chi^2(n_2)\\)\\(X, Y\\) 独立。称 \\(F = \\dfrac\\fracXn_1\\fracYn_2\\) 服从自由度为 \\((n_1, n_2)\\)\\(F\\) 分布,记作 \\(F \\sim F(n_1, n_2)\\)

\\(F(1, n)\\)\\(t(n)\\) 的平方。

例题结论:

  • \\(F = \\dfracS_1^2 / \\sigma_1^2S_2^2 / \\sigma_2^2 \\sim F(n_1 - 1, n_2 - 1)\\)

参数估计

点估计

定义:用简单随机样本统计量估计参数,称为点估计量。样本确定取值,用点估计量估计出的值称为点估计值。

矩法(矩估计)

用前 \\(k\\) 阶矩或中心矩,估计 \\(k\\) 个参数。

方法:先用参数表示前 \\(k\\) 阶(中心)矩,再反解出参数,代入样本即可。

极大似然估计

Bayes 公式:\\(P(\\theta|A) = \\dfracP(A|\\theta)P(\\theta)P(A)\\),现在样本 \\(A\\) 已知,如果假设 \\(P(\\theta)\\) 是均匀分布的,\\(\\textargmax\\ P(\\theta|A) = \\textargmax\\ P(A|\\theta)\\),因此极大似然。为了方便,取 \\(\\log\\) 是常用的方法。

估计量的标准

无偏性

无偏估计量、渐进无偏估计量

有效性

对于所有的 \\(\\theta\\),方差都不大。且存在一个 \\(\\theta\\) 方差小,则更有效。

均方误差原则

均方误差。

相合性

\\(\\hat \\theta\\) 收敛于 \\(\\theta\\)

置信区间

定义:两个统计量夹住概率至少为 \\(\\alpha\\) 的参数取值区间,称 \\(\\alpha\\) 为置信度。双侧置信区间、单侧置信区间。

枢轴量

样本和待估参数的函数,但其分布只依赖于样本,不依赖于未知参数。

例如在独立同分布的总体中取样,根据中心极限定理,减均值除标准差后近似服从 \\(N(0, 1)\\) 分布,这与待估参数无关。

因此如果给定待估参数和样本,可以通过减均值除方差之后落入的点的概率来判断是否可信,即可信区间。

正态分布总体下区间估计

单个正态总体估计 X

已知 \\(\\sigma^2\\),估计 \\(\\mu\\)

\\(\\bar X\\)\\(\\dfrac\\bar X - \\mu\\sigma/\\sqrtn \\sim N(0, 1)\\)

未知 \\(\\sigma^2\\),估计 \\(\\mu\\)

还要用 \\(\\bar X\\),但因为 \\(\\sigma\\) 未知,用样本标准差 \\(S\\) 代替,这也对应着 \\(t\\) 分布在自由度大时近似标准正态分布。

\\(\\dfrac\\bar X - \\muS / \\sqrtn \\sim t(n - 1)\\)

未知 \\(\\mu\\),估计 \\(\\sigma^2\\)

\\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\)

两个正态总体估计 X,Y

已知 \\(\\sigma_1^2, \\sigma_2^2\\),估计 \\(\\mu_1 - \\mu_2\\)

\\(\\bar X - \\bar Y\\) 看成一个正态分布就行了。

\\(\\sigma_1 = \\sigma_2\\) 但未知,估计 \\(\\mu_1 - \\mu_2\\)

\\(T = \\dfrac(\\bar X - \\bar Y) - (\\mu_1 - \\mu_2)S_w\\sqrt\\frac1n_1 + \\frac1n_2 \\sim t(n_1 + n_2 - 2)\\)

\\(\\sigma_1 \\neq \\sigma_2\\) 且未知

如果充分大,用中心极限定理把 \\(\\bar X - \\bar Y\\) 近似成标准正态分布做。

对于有限小样本,\\(\\bar X - \\bar Y\\) 近似服从 \\(t(\\min\\n_1 - 1, n_2 - 1\\)\\)

\\(\\mu_1, \\mu_2\\) 未知,估计 \\(\\sigma_1^2 / \\sigma_2^2\\)

\\(\\dfracS_1^2/S_2^2\\sigma_1^2/\\sigma_2^2 = \\dfracS_1^2 / \\sigma_1^2S_2^2 / \\sigma_2^2 \\sim F(n_1 - 1, n_2 - 1)\\)

以上是关于概率统计之统计部分抄ppt的主要内容,如果未能解决你的问题,请参考以下文章

统计思维:程序员数学之概率统计

《统计思维程序员数学之概率统计第2版》中英文PDF+数据代码+《面向数据科学家的实用统计学》中英文PDF+源代码+学习总结

概率论与数理统计期末不挂科复习笔记

概率统计丨陈希孺《概率论与数理统计》思维导图

数学之高等数学线性代数统计与概率论

概率统计笔记:分布的核