几个统计学的概念

Posted q735613050

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了几个统计学的概念相关的知识,希望对你有一定的参考价值。

统计基础概念

在多元变量分析中,我们考虑所有的 (d) 个数值型属性 (X_1, cdots, X_d)。整个数据集是一个 (n imes d) 的矩阵,即(数据矩阵):

[ D = left[ egin{array}{c|llll} & X_1 & X_2 & cdots & X_d hline x_1^T & x_{11} & x_{12} & cdots & x_{1d} x_2^T & x_{21} & x_{22} & cdots & x_{2d} vdots & vdots & vdots & ddots & vdots x_n^T & x_{n1} & x_{n2} & cdots & x_{nd} end{array} ight] ]

以上数据:

  • 按照来看,可以看作 (d) 维属性空间中的 (n) 个点或者向量
    $
    x_i = (x_{i_1}, cdots, x_{id})^T in {Bbb R}^d
    $
  • 按照来看,可以看作 (n) 维属性空间中的 (d) 个点或者向量
    $
    X_j = (X_{j_1}, cdots, X_{jd})^T in {Bbb R}^n
    $

从概率的角度,(d) 个属性可以建模为一个向量随机变量 (X = (X_1, X_2, cdots, X_d)^T),而点 (x_i) 可以看成从 (X) 中得到的随机样本,它们和 (X) 是独立同分布的。

均值

[ egin{align} mu = E[X] = left[ egin{array}{c} E[X_1] \ E[X_2] \ vdots \ E[X_d] end{array} ight] = left[ egin{array}{c} mu_1 \ mu_2 \ vdots \ mu_d end{array} ight] ag{均值向量} \hat{mu} = frac{1}{n} sum_{i=1}^{n}x_i ag {样本均值} end{align} ]

协方差矩阵

[ Sigma = E[(X - mu)(X - mu)^T] ]

居中数据矩阵

[ Z = D - 1 cdot hat{mu}^T ]

样本协方差矩阵

[ hat{Sigma} = E[(X - hat{mu})(X - hat{mu})^T] = frac{1}{n - 1}; (Z^TZ) ]

总方差

[ var(D) = tr(Sigma) ]


数据规范化

极差归一化

极差(hat{r} = max{X_i} - min{X_i})

(X_i^{‘} = frac{X_i - min{X_i}}{hat{r}})

标准差归一化

[ hat{X} = frac{X - hat{mu}}{hat{sigma}} ]


高斯误差函数

[ erf(x) = frac{2}{sqrt{pi}};int_0^xe^{-t^2}{ m d}t ]

应用

一元正态分布

随机变量 (X) 服从正态分布,均值为 (mu),方差为 (sigma^2),其概率密度函数可以描述为:

[ f(x,|,mu, sigma^2) = frac{1}{sqrt{2pi sigma^2}} expleft{-frac{(x - mu)^2}{2 sigma^2} ight} ]

给定区间 ([a, b]),在该区间上的正态分布的概率质量为:

[ P(a leq x leq b) = int_a^b f(x,|,mu, sigma^2) { m d} x ]

我们大都对于区间 ([mu - k sigma, mu + k sigma]) 比较感兴趣:

[ P(mu - k sigma leq x leq mu + k sigma) = int_{mu - k sigma}^{mu + k sigma} f(x,|,mu, sigma^2) { m d} x ]

我们令 (z = frac{x - mu}{sigma}),则上式可以化为:

[ egin{align} P(- k leq z leq k) &= frac{1}{sqrt{2pi}} int_{- k}^{k} e^ {- frac{1}{2}{z^2}} { m d}z &= frac{2}{sqrt{2pi}} int_{0}^{k} e^ {- frac{1}{2}{z^2}} { m d}z &= frac{2}{sqrt{pi}} int_{0}^{frac{k}{sqrt{2}}} e^{- t^2} { m d}t &= erf(frac{k}{sqrt{2}}) end{align} ]

多元正态分布

(X = (X_1, X_2, cdots, X_d)) 服从多元正态分布,均值为 (f mu),协方差矩阵为 (f Sigma),则其联合多元概率密度函数为:

[ f(x,|,mu, Sigma) = frac{1}{sqrt{2pi}^d {sqrt{|{Sigma}|}}} expleft{-frac{(x - mu)^T{Sigma}^{-1}(x - mu)}{2} ight} ]

马氏距离

[ (x - mu)^T{Sigma}^{-1}(x - mu) ]







以上是关于几个统计学的概念的主要内容,如果未能解决你的问题,请参考以下文章

统计学上的几个概念

7-统计学-推断统计分析

不掺水干活统计学知识大梳理

机器学习几个重要概念

统计学第七版贾俊平课后答案

浅谈随机数的生成