几个统计学的概念
Posted q735613050
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了几个统计学的概念相关的知识,希望对你有一定的参考价值。
统计基础概念
在多元变量分析中,我们考虑所有的 (d) 个数值型属性 (X_1, cdots, X_d)。整个数据集是一个 (n imes d) 的矩阵,即(数据矩阵):
[ D = left[ egin{array}{c|llll} & X_1 & X_2 & cdots & X_d hline x_1^T & x_{11} & x_{12} & cdots & x_{1d} x_2^T & x_{21} & x_{22} & cdots & x_{2d} vdots & vdots & vdots & ddots & vdots x_n^T & x_{n1} & x_{n2} & cdots & x_{nd} end{array} ight] ]
以上数据:
- 按照行来看,可以看作 (d) 维属性空间中的 (n) 个点或者向量
$
x_i = (x_{i_1}, cdots, x_{id})^T in {Bbb R}^d
$ - 按照列来看,可以看作 (n) 维属性空间中的 (d) 个点或者向量
$
X_j = (X_{j_1}, cdots, X_{jd})^T in {Bbb R}^n
$
从概率的角度,(d) 个属性可以建模为一个向量随机变量 (X = (X_1, X_2, cdots, X_d)^T),而点 (x_i) 可以看成从 (X) 中得到的随机样本,它们和 (X) 是独立同分布的。
均值
[ egin{align} mu = E[X] = left[ egin{array}{c} E[X_1] \ E[X_2] \ vdots \ E[X_d] end{array} ight] = left[ egin{array}{c} mu_1 \ mu_2 \ vdots \ mu_d end{array} ight] ag{均值向量} \hat{mu} = frac{1}{n} sum_{i=1}^{n}x_i ag {样本均值} end{align} ]
协方差矩阵
[ Sigma = E[(X - mu)(X - mu)^T] ]
居中数据矩阵
[ Z = D - 1 cdot hat{mu}^T ]
样本协方差矩阵
[ hat{Sigma} = E[(X - hat{mu})(X - hat{mu})^T] = frac{1}{n - 1}; (Z^TZ) ]
总方差
[ var(D) = tr(Sigma) ]
数据规范化
极差归一化
极差:(hat{r} = max{X_i} - min{X_i})
(X_i^{‘} = frac{X_i - min{X_i}}{hat{r}})
标准差归一化
[ hat{X} = frac{X - hat{mu}}{hat{sigma}} ]
高斯误差函数
[ erf(x) = frac{2}{sqrt{pi}};int_0^xe^{-t^2}{ m d}t ]
应用
一元正态分布
随机变量 (X) 服从正态分布,均值为 (mu),方差为 (sigma^2),其概率密度函数可以描述为:
[ f(x,|,mu, sigma^2) = frac{1}{sqrt{2pi sigma^2}} expleft{-frac{(x - mu)^2}{2 sigma^2} ight} ]
给定区间 ([a, b]),在该区间上的正态分布的概率质量为:
[ P(a leq x leq b) = int_a^b f(x,|,mu, sigma^2) { m d} x ]
我们大都对于区间 ([mu - k sigma, mu + k sigma]) 比较感兴趣:
[ P(mu - k sigma leq x leq mu + k sigma) = int_{mu - k sigma}^{mu + k sigma} f(x,|,mu, sigma^2) { m d} x ]
我们令 (z = frac{x - mu}{sigma}),则上式可以化为:
[ egin{align} P(- k leq z leq k) &= frac{1}{sqrt{2pi}} int_{- k}^{k} e^ {- frac{1}{2}{z^2}} { m d}z &= frac{2}{sqrt{2pi}} int_{0}^{k} e^ {- frac{1}{2}{z^2}} { m d}z &= frac{2}{sqrt{pi}} int_{0}^{frac{k}{sqrt{2}}} e^{- t^2} { m d}t &= erf(frac{k}{sqrt{2}}) end{align} ]
多元正态分布
若 (X = (X_1, X_2, cdots, X_d)) 服从多元正态分布,均值为 (f mu),协方差矩阵为 (f Sigma),则其联合多元概率密度函数为:
[ f(x,|,mu, Sigma) = frac{1}{sqrt{2pi}^d {sqrt{|{Sigma}|}}} expleft{-frac{(x - mu)^T{Sigma}^{-1}(x - mu)}{2} ight} ]
马氏距离
[ (x - mu)^T{Sigma}^{-1}(x - mu) ]
以上是关于几个统计学的概念的主要内容,如果未能解决你的问题,请参考以下文章