概率统计之统计部分抄ppt

Posted 2023-06-20 skyh

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了概率统计之统计部分抄ppt相关的知识，希望对你有一定的参考价值。

写一写公式，尝试更好背一下，好像失败了

统计基础

统计量

定义：样本不依赖于位置参数的函数

常用统计量：

样本均值：\\(\\bar X = \\sum_i X_i / n\\)
样本方差：\\(S^2 = \\sum_i (X_i - \\bar X)^2 / (n-1)\\)，这是对 \\(X_i\\) 方差的无偏估计量。
\\(k\\) 阶矩：\\(A_k\\)
\\(k\\) 阶中心矩：\\(B_k\\)

重要分布

\\(\\chi^2\\) 分布

设 \\(n\\) 个服从标准正态分布相互独立随机变量的平方和为 \\(\\chi^2_n\\)，则称 \\(\\chi^2_n\\) 服从自由度为 \\(n\\) 的 \\(\\chi^2\\) 分布，记为 \\(\\chi^2_n \\sim \\chi^2(n)\\)。

自由度为 \\(n\\) 的 \\(\\chi^2\\) 分布的上 \\(\\alpha\\) 分位数记为 \\(\\chi^2_a(n)\\)。

例题结论：

正态分布独立样本条件下，\\(\\bar X\\) 与 \\(S^2\\) 相独立。证明过程大概如下：
\\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\)
- 以上两个结论的证明（可以直接看最后一项）：
- 先取 \\(Y_1\\) 为均值（即 \\(\\bar X\\)），再取 \\(Y_2 \\dots Y_n\\) 以表示出 \\(S^2\\)。取 \\(Y_2\\)，由于要求与 \\(Y_1\\) 不相关（我们不妨假设 \\(Y_2\\) 只与 \\(X_1, X_2\\) 有关），在保证单位向量的情况下系数唯一。接着取 \\(Y_3\\)，其与 \\(Y_1\\) 不应当相关（这是与均值独立的要求），与 \\(Y_2\\) 也不应当相关（保证变量相互独立，以证明下一题），因此可以列出形如 \\(A_31+A_32+A_33 = 0,A_31 = A_32, A_31^2+A_32^2+A_33^2=1\\) 三个方程，这又唯一确定了这三个系数。以此类推得到系数矩阵 \\(A\\)。
- 为什么这种方式使得 \\(Y_2^2 + \\dots + Y_n^2\\) 恰好表示出 \\(S^2\\)？不知道。
- 看了下lds课件，其实根本没必要以这种方式构造式的给出系数矩阵 \\(A\\)。直接取系数矩阵 \\(A\\) 的第一行为 \\(\\frac1\\sqrtn\\) 来表示均值，其他任取但保证单位正交。那么有 \\(\\sum Y_i^2 = Y^TY = X^TA^TAX = X^TX = \\sum X_i^2\\)。再由 \\(Y_1 = \\bar X \\sqrtn\\) 可得 \\(\\sum \\limits_i=2^nY_i^2 = \\sum X_i^2 - n\\bar X^2 = \\sum(X_i - \\bar X)^2\\)。因为正交的构造，也可以立得两个结论。
\\(\\chi^2_2\\sim Exp(1/2)\\)

\\(t\\) 分布

设 \\(X \\sim N(0,1), Y \\sim \\chi^2(n)\\) 且 \\(X, Y\\) 相互独立，\\(T = \\dfracX\\sqrt\\dfracYn\\)，则称 \\(T\\) 服从自由度为 \\(n\\) 的 \\(t\\) 分布，记作 \\(T \\sim t(n)\\)。

统一量纲：分母应当开根号。

\\(t\\) 分布在自由度较大时近似为标准正态分布。

例题结论：

\\(\\dfrac\\bar X - \\mu\\sqrt\\dfracS^2n \\sim t(n-1)\\)
- 已经证明两个变量相互独立，再根据 \\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\) 凑一下就可以了。
- 注意下面 \\(S\\) 除的是 \\(n\\)，但凑出来的是 \\(t(n-1)\\)。
设 \\(T = \\dfrac(\\bar X - \\bar Y) - (\\mu_1 - \\mu_2)S_w\\sqrt\\frac1n_1 + \\frac1n_2\\)，其中 \\(S_w^2 = \\dfrac(n_1-1)S_1^2 + (n_2-1)S_2^2n_1 + n_2 - 2\\)。则 \\(T \\sim t(n_1 + n_2 - 2)\\)。
- 取 \\(\\bar X - \\bar Y\\) 为正态分布，标准化。由于 \\(\\chi^2\\) 分布的可加性，将 \\(S_1^2, S_2^2\\) 分别拿出来凑一个 \\(\\chi^2\\) 分布。

F分布

设 \\(X \\sim \\chi^2(n_1), Y\\sim \\chi^2(n_2)\\) 且 \\(X, Y\\) 独立。称 \\(F = \\dfrac\\fracXn_1\\fracYn_2\\) 服从自由度为 \\((n_1, n_2)\\) 的 \\(F\\) 分布，记作 \\(F \\sim F(n_1, n_2)\\)。

\\(F(1, n)\\) 是 \\(t(n)\\) 的平方。

例题结论：

\\(F = \\dfracS_1^2 / \\sigma_1^2S_2^2 / \\sigma_2^2 \\sim F(n_1 - 1, n_2 - 1)\\)

参数估计

点估计

定义：用简单随机样本统计量估计参数，称为点估计量。样本确定取值，用点估计量估计出的值称为点估计值。

矩法（矩估计）

用前 \\(k\\) 阶矩或中心矩，估计 \\(k\\) 个参数。

方法：先用参数表示前 \\(k\\) 阶（中心）矩，再反解出参数，代入样本即可。

极大似然估计

Bayes 公式：\\(P(\\theta|A) = \\dfracP(A|\\theta)P(\\theta)P(A)\\)，现在样本 \\(A\\) 已知，如果假设 \\(P(\\theta)\\) 是均匀分布的，\\(\\textargmax\\ P(\\theta|A) = \\textargmax\\ P(A|\\theta)\\)，因此极大似然。为了方便，取 \\(\\log\\) 是常用的方法。

估计量的标准

无偏性

无偏估计量、渐进无偏估计量

有效性

对于所有的 \\(\\theta\\)，方差都不大。且存在一个 \\(\\theta\\) 方差小，则更有效。

均方误差原则

均方误差。

相合性

\\(\\hat \\theta\\) 收敛于 \\(\\theta\\)。

置信区间

定义：两个统计量夹住概率至少为 \\(\\alpha\\) 的参数取值区间，称 \\(\\alpha\\) 为置信度。双侧置信区间、单侧置信区间。

枢轴量

样本和待估参数的函数，但其分布只依赖于样本，不依赖于未知参数。

例如在独立同分布的总体中取样，根据中心极限定理，减均值除标准差后近似服从 \\(N(0, 1)\\) 分布，这与待估参数无关。

因此如果给定待估参数和样本，可以通过减均值除方差之后落入的点的概率来判断是否可信，即可信区间。

正态分布总体下区间估计

单个正态总体估计 X

已知 \\(\\sigma^2\\)，估计 \\(\\mu\\)

用 \\(\\bar X\\)，\\(\\dfrac\\bar X - \\mu\\sigma/\\sqrtn \\sim N(0, 1)\\)。

未知 \\(\\sigma^2\\)，估计 \\(\\mu\\)

还要用 \\(\\bar X\\)，但因为 \\(\\sigma\\) 未知，用样本标准差 \\(S\\) 代替，这也对应着 \\(t\\) 分布在自由度大时近似标准正态分布。

\\(\\dfrac\\bar X - \\muS / \\sqrtn \\sim t(n - 1)\\)。

未知 \\(\\mu\\)，估计 \\(\\sigma^2\\)

\\((n-1)S^2/\\sigma^2 \\sim \\chi^2(n-1)\\)

两个正态总体估计 X,Y

已知 \\(\\sigma_1^2, \\sigma_2^2\\)，估计 \\(\\mu_1 - \\mu_2\\)

把 \\(\\bar X - \\bar Y\\) 看成一个正态分布就行了。

\\(\\sigma_1 = \\sigma_2\\) 但未知，估计 \\(\\mu_1 - \\mu_2\\)

\\(T = \\dfrac(\\bar X - \\bar Y) - (\\mu_1 - \\mu_2)S_w\\sqrt\\frac1n_1 + \\frac1n_2 \\sim t(n_1 + n_2 - 2)\\)

\\(\\sigma_1 \\neq \\sigma_2\\) 且未知

如果充分大，用中心极限定理把 \\(\\bar X - \\bar Y\\) 近似成标准正态分布做。

对于有限小样本，\\(\\bar X - \\bar Y\\) 近似服从 \\(t(\\min\\n_1 - 1, n_2 - 1\\)\\)。

\\(\\mu_1, \\mu_2\\) 未知，估计 \\(\\sigma_1^2 / \\sigma_2^2\\)

\\(\\dfracS_1^2/S_2^2\\sigma_1^2/\\sigma_2^2 = \\dfracS_1^2 / \\sigma_1^2S_2^2 / \\sigma_2^2 \\sim F(n_1 - 1, n_2 - 1)\\)

以上是关于概率统计之统计部分抄ppt的主要内容，如果未能解决你的问题，请参考以下文章

统计思维：程序员数学之概率统计

《统计思维程序员数学之概率统计第2版》中英文PDF+数据代码+《面向数据科学家的实用统计学》中英文PDF+源代码+学习总结

概率论与数理统计期末不挂科复习笔记

概率统计丨陈希孺《概率论与数理统计》思维导图

数学之高等数学线性代数统计与概率论

概率统计笔记：分布的核