概率论与数理统计小结7 - 统计基础概念

Posted 2020-10-17 昕-2008

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了概率论与数理统计小结7 - 统计基础概念相关的知识，希望对你有一定的参考价值。

注：概率论方面就暂时告一段落，终于可以说说统计方面的事情了。如果说概率论中主要是研究随机变量的方法学和理论模型，那么统计学就是利用概率论这一强大的工具来研究具有随机性的现象（结果的不确定性）。而研究这些随机现象最重要的方法就是，大量重复试验进而找到其统计规律性。一般步骤为：重复试验（例如反复测量，多次观察等）并记录试验结果，然后对这些实验数据进行整理、分析和建模。最终达到对随机现象的某些规律进行预测并指导我们的决策的目的。下面对一些基本概念做一个总结。

0. 概率论与数理统计的异同

概率论、数理统计都是研究随机现象的统计规律性的数学分支，但两者研究角度不同。

概率论：从已知分布出发，研究随机变量$X$的性质、规律、数学特征等；

数理统计：研究对象$X$的分布未知或只知道部分信息，需要观察它的取值（数据采集），通过分析数据来推断$X$服从什么分布或确定未知参数。

数理统计研究问题的主要方法：以部分数据信息来推断整体相关信息

1. 样本与总体

样本与总体的概念，在前面已经多次接触到，只是没有非常明确的给出定义。例如我们一般假设某个学校全体学生的身高，用随机变量$X$表示，近似服从正态分布，这里的正态分布就是"总体"的分布，字面意思就是所有待研究对象的集合。在实际的数据分析中，我们通过观察或其他测量方式得到的数据一般都只是待研究对象的一个子集，这个子集就是一个样本（可以包含多个个体）。例如通过某种方式，从全体学生中找出100名学生，这100名学生就是一个样本。样本与总有之间的关系，有两种可能的情况：

如果这种方式是完全随机的（例如抽签），那么这个样本就是全体学生的一个非常好的代表，我们可以利用这个100个学生的平均身高、体重、家庭收入等来估计全体学生的平均身高、体重以及家庭收入。这时候样本的分布应该与总体的分布类似，都近似服从正态分布。
但如果我们找出这100名学生的方式不是完全随机的，那么这个样本就不具有代表性，此时样本的分布于总体的分布可能会有非常大的差异。

总体：研究对象的全体；

个体：总体中的成员；

总体的容量：总体中包含的个体数；

有限总体：容量有限的总体；

无限总体：容量无限的总体，通常将容量非常大的有限总体也按无限总体处理。

样本，总体&随机变量

实际中人民通常只关注总体的某个（或几个）指标；
总体的某个指标$X$，例如全体学生的身高，对于不同的个体来说有不同的取值，这些取值构成一个分布，因此$X$可以看成一个随机变量；
有时候直接将$X$称为总体，假设$X$的分布函数为$F(x)$，也称总体$X$具有分布$F(x)$。

2. 统计量

统计量的概念存在于样本中，是对样本某个指标的概括，例如上面例子中选出来的100位学生的平均身高就是一个统计量。统计量区别于"个体量"（我自己生造的词），具有以下两个特点：

不包含任何未知数；
包含所有样本的信息。

因此只要样本确定，统计量的值就可以直接计算出来。例如一旦选定100位学生，他们的平均身高就可以计算出来。

定义

样本的不包含任何未知参数的函数。通常可以通过构造统计量的方式，从样本中提取有用的信息来研究总体的分布以及各种特征数。

常用统计量

样本均值 $\bar{X} = \displaystyle \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^2$；
样本方差 $S^2 = \displaystyle \frac{1}{n - 1} \sum_{i=1}^{n}(X_i - \bar{X})^2$；
样本标准差 $S = \sqrt{S^2}$；
样本k阶原点矩 $A_k = \displaystyle \frac{1}{n} \sum_{i=1}^{n}X_{i}^k$；
样本k阶中心距 $B_k = \displaystyle \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^k$, k = 1, 2, ...

从上面可以看到：样本的均值等于样本的1阶原点矩；但是样本的方差不等于样本的2阶中心距（在总体中这两者是相等的）；

用统计量估计总体的数字特征

当总体数字特征未知时，

用样本均值$\bar{X}$估计总体均值$\mu = E(X)$；
用样本方差$S^2$估计总体方差$\sigma^2 = E(X - \mu)^2$；
用样本原点矩$A_k$估计总体原点矩$\mu_k = E(X^k)$；
用样本中心距$B_k$估计总体中心距$v_k = E(X - \mu)^k$。

以上估计的理论基础就是大数定律。值得注意的是，总体的均值$\mu$是一个数，可能已知，也可能未知；而样本均值$\bar{X}$是一个随机变量，依赖于样本值。

3. 抽样分布

统计量的分布被称为抽样分布。

当总体$X$服从一般分布（如指数分布、均匀分布等），要得出统计量的分布是很困难的；当总体$X$服从正态分布时，统计量$\bar{X}$、$S^2$是可以计算的，且服从一定的分布。这些分布就是下面要介绍的三大抽样分布——$\chi^2$分布，$t$分布，$F$分布。

Reference

中国大学MOOC：浙江大学&哈工大，概率论与数理统计

以上是关于概率论与数理统计小结7 - 统计基础概念的主要内容，如果未能解决你的问题，请参考以下文章

概率论与数理统计小结2 - 随机变量概述

人工智能数学基础--概率与统计7：学习中一些术语的称呼或表示变化说明以及独立事件的一些补充推论

人工智能数学基础--概率与统计4：联合分布与边缘分布

[概率论与数理统计]笔记：4.1 总体与样本