统计学的基本概念，你知道多少

Posted 2021-02-07 LeoLRH

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了统计学的基本概念，你知道多少相关的知识，希望对你有一定的参考价值。

统计学习的基本概念（复习篇）

总体（population）：根据研究目的确定的同类对象的全体（集合）　　样本（sample）：从总体中随机抽取的部分具有代表性的研究对象。
参数（Parameter）：反映总体特征的统计指标，如总体均数、标准差等，是固定的常量。
统计量（statistic）：反映样本特征的统计指标，如样本均数、标准差等，是在参数附近波动的随机变量。
统计资料分布（statistical distribution）：定量（计量）资料、定性（计数）资料、等级资料。

计量资料统计描述：

集中趋势：均数（mean）、中位数（median）、众数（mode）。
离散趋势：极差（range）、四分位间距（interquartile range）、标准差(standard deviation)（或方差(variance））、变异系数（variable coefficient）。

注：四分位数（Quartile）是统计学中分位数的一种，即把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range, IQR）。

在概率论和统计学中，变异系数，又称“离散系数”（英文：coefficient of variation），是概率分布离散程度的一个归一化量度，其定义为标准差与平均值之比

　　二项分布（Bionomial Distribution）：

说起二项分布(binomial distribution)，不得不提的前提是伯努利试验(Bernoulli experiment)，也即n次独立重复试验。伯努利试验是在同样的条件下重复、相互独立进行的一种随机试验。

伯努利试验的特点是：

（1）每次试验中事件只有两种结果：事件发生或者不发生，如硬币正面或反面，患病或没患病；

（2）每次试验中事件发生的概率是相同的，注意不一定是0.5；

（3）n次试验的事件相互之间独立。

举个实例，最简单的抛硬币试验就是伯努利试验，在一次试验中硬币要么正面朝上，要么反面朝上，每次正面朝上的概率都一样p=0.5，且每次抛硬币的事件相互独立，即每次正面朝上的概率不受其他试验的影响。如果独立重复抛n=10次硬币，正面朝上的次数k可能为0,1,2,3,4,5,6,7,8,9,10中的任何一个，那么k显然是一个随机变量，这里就称随机变量k服从二项分布。

n次抛硬币中恰好出现k次的概率为：P(X=k) = C(n,k) * p^k*(1-p)^n-k

这就是二项分布的分布律，记作X~B(n,p)，其中C(n,k)是组合数，在数学中也叫二项式系数，这就是二项分布名称的来历。判断某个随机变量X是否符合二项分布除了满足上述的伯努利试验外，关键是这个X是否表示事件发生的次数。二项分布的数学期望E(X)=np，方差D(X)=np*(1-p)。

　　泊松分布（poisson distribution）

泊松分布描述的是一个离散随机事件在单位时间内发生的次数, 其对应的场景是我们统计已知单位事件内发生某事件的平均次数λ, 那么我们在一个单位事件内发生k次的概率是多大呢?

比如说医院产房里统计历史数据可知, 平均每小时出生3个宝宝,那么在接下来的一个小时内, 出生 0 个宝宝, 1 个宝宝, …, 3 个宝宝, …10 个宝宝, n 个宝宝的概率分别是多少呢? 泊松分布给出了定量的结果 :

其中 P(X=k) 描述的就是在单位时间内事件 X发生 k次的概率, λ代表在单位时间内事件发生的平均次数, 也就是泊松分布的期望, 同时也是方差.

一个场景可以用泊松分布来描述, 需要满足三个条件：

1. 均值稳定. 即 λ在任意划定的单位时间长度内,应该是一个稳定的数值.
2. 事件独立. 事件之间相互独立, 若相关, 则泊松分布失效.
3. 在一个极小的时间内, 事件发生的次数应趋近于0. 比如说：产房平均 1 小时出生 3 个宝宝, 那我任意指定1ms, 那这1ms 内出生的宝宝数趋近于 0 .

　　大数定理（Law of large numbers)

设随机变量$X_1,X_2,X_3,...,X_n$是一列互相独立的随机变量（或者两两不相关），并且分别存在期望$E(X_k)$,则对于任意小的正数ε有： $$ \\lim_{x→∞}P(|\\frac{1}{n}\\sum_{k=1}^nX_k-\\frac{1}{n}\\sum_{k=1}^nE(X_k)|<ε) $$ 理解：随着样本数量n的增加，样本的平均数（总体中的一部分）将接近于总体样本的平均数，所以在统计推断中一般使用样本平均数估计总体平均数的值。

下面我们用简单的python代码来客观展现出大数定理：

import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
 
# 防止中文乱码
mpl.rcParams[\'font.sans-serif\']=[u\'simHei\']
mpl.rcParams[\'axes.unicode_minus\']=False
 
# 定义数据量大小
numberSize = 200
# 生成服从正态分布的随机数据，其均值为0
randData = np.random.normal(scale=100, size=numberSize)
# 保存随机每增加一个数据后算出来的均值
randData_average = []
# 保存每增加一个数据后的数据和
randData_sum = 0
# 通过循环计算每增加一个数据后的均值
for index in range(len(randData)):
    randData_average.append((randData[index] + randData_sum) / (index + 1.0))
# 定义作图的x值和y值
x = np.arange(0,numberSize,1)
y = randData_average
# 作图设置
plt.title(\'大数定律\')
plt.xlabel(\'数据量\')
plt.ylabel(\'平均值\')
# 作图并展示
plt.plot(x,y)
plt.plot([0,numberSize], [0,0], \'r\')
plt.show()

结果如下：

由上图即可进一步验证我们的结论，随着数据量的增加，均值越来越接近实际均值0。

即当我们的样本数据量足够大的时候，我们就可以用样本的平均值来估计总体平均值。

正态分布（Normal distribution）：正态分布又叫高斯分布，若随机变量$X$服从一个数学期望为μ、方差为σ²的正态分布，记为N(μ，σ²):（这个我单写过一章学习）

其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布

以上是关于统计学的基本概念，你知道多少的主要内容，如果未能解决你的问题，请参考以下文章