PRML6-高斯分布1

Posted lvbaiyang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PRML6-高斯分布1相关的知识,希望对你有一定的参考价值。

高斯分布1

概览

一元高斯分布:
[ N(x|mu,sigma^2)=frac{1}{sqrt{2pisigma^2}}exp(-frac{(x-mu)^2}{2sigma^2}) ]
对于D维向量(oldsymbol x),多元高斯分布为:
[ N(oldsymbol{x}|oldsymbol{mu},oldsymbol{Sigma})=frac{1}{(2pi)^{frac{D}{2}}|oldsymbolSigma|^{frac{1}{2}}}exp(-frac{1}{2}(oldsymbol{x}-oldsymbol{mu})^ToldsymbolSigma^{-1}(oldsymbol{x}-oldsymbol{mu})) ]
其中,(Sigma)(D imes D)维协方差矩阵,(|Sigma|)为其行列式,(oldsymbol mu)为D维的均值向量。

多元高斯分布公式推导

使熵取得最大值的分布为高斯分布,原因在这里:最大熵与正态分布

并且根据拉普拉斯提出的中心极限定理(central limit theorem),对于某些温和的情况,一组随机变量之和的概率分布在项的数量增加时逐渐趋于高斯分布。比如说多个均匀分布相加,在其数量趋向正无穷时,和的分布趋向高斯分布。

对指数上的内容进行推导

高斯分布对于(oldsymbol{x})的依赖是通过下面的二次型:
[ riangle^2=(oldsymbol{x}-oldsymbol{mu})^ToldsymbolSigma^{-1}(oldsymbol{x}-oldsymbol{mu}) ]
这个二次型出现在指数的位置上。( riangle)(oldsymbol{x},oldsymbol{mu})两者之间的马氏距离。当(Sigma)是单位矩阵时,变成了欧式距离。

(oldsymbolSigma)为对称矩阵,使其特征值是正交的。(书上说取对称矩阵不失一般性,因为任何非对称项都会从指数中消失,这个我不太明白,可能与矩阵指数有关)

现在考虑协方差矩阵的特征值(令(oldsymbol A = oldsymbolSigma))
[ oldsymbol Aoldsymbol{u}_i=lambda_ioldsymbol{u}_i ]
对于不同的特征值(lambda_i)(lambda_j),其对应的特征向量必为正交的,即:
[ oldsymbol{u}_i^Toldsymbol{u}_j=I_{ij} ]
其中(I_{ij})表示单位矩阵的一个元素。

由于(oldsymbol A)为n阶正定矩阵,(r(oldsymbol A)=n),对于n阶实对称矩阵,一定可以对角化,那么一定有n个线性无关的特征向量。那么可以对其进行特征分解。

对角矩阵(oldsymbolLambda),正交矩阵(oldsymbol U)(进行了特征分解):
[ oldsymbolLambda = egin{pmatrix} lambda_1& &&lambda_2&&&lambda_D end{pmatrix}, oldsymbol U = egin{pmatrix} oldsymbol u_1,oldsymbol u_2...oldsymbol u_D end{pmatrix} ]
则:
[ oldsymbol A=oldsymbol Uoldsymbol Lambdaoldsymbol U^T=sum_i^Dlambda_ioldsymbol u_ioldsymbol u_i^T onumber oldsymbol A^{-1}=sum_i^Dfrac{1}{lambda_i}oldsymbol u_ioldsymbol u_i^T onumber, (oldsymbol u_i^T=oldsymbol u_i^{-1}) ]
此时二次型变为:
[ riangle^2 =sum_i^D frac{oldsymbol y_i^2}{lambda_i} ]
其中,(y_i=oldsymbol u_i^T(oldsymbol{x}-oldsymbol{mu})),可以理解(y_i)是正交向量(oldsymbol u_i)关于原始坐标(x_i)坐标经过平移和旋转之后形成的新的坐标系。

定义(oldsymbol y = (y_1,...,y_D)^T),就有:
[ oldsymbol y = oldsymbol U^T(oldsymbol{x}-oldsymbol{mu}) ]

(oldsymbol y = (y_1,...,y_D)^T)(y_1)表示在该方向上的坐标。

(oldsymbol x = (x_1,...,x_D)^T)(x_1)表示在该方向上的坐标。两者的不同在于(y)坐标系是(x)坐标系经过平移旋转后得到的。

(oldsymbol U = (oldsymbol u_1, ... ,oldsymbol u_D))(oldsymbol u_1=(u_{11}, ... ,u_{1D})^T),表示特征向量组成的矩阵。

技术图片

这个图是PRML书中的图2.7,关于其理解写在这里。表示在高斯密度为常数时的曲面,为椭球面。其中心为(oldsymbol mu),轴的方向为(oldsymbol u_1,oldsymbol u_2),放缩因子为(sqrtlambda)

我们有必要限制协方差矩阵的所有特征值严格大于0,否则分布不能被正确的归一化。此时该矩阵成为正定矩阵(positive definite matrix)。

对多元高斯分布第一项进行推导

下面考虑在(oldsymbol y)坐标系下的高斯分布的形式。我们有一个雅各比矩阵(Jacobian),其元素为:
[ J_{ij}=frac{part x_i}{part y_j}=U_{ij} ]
如何得出的呢?根据上面公式:
[ egin{align} oldsymbol U^T(oldsymbol{x}-oldsymbol{mu}) onumber &= oldsymbol yoldsymbol{x}-oldsymbol{mu} &= (oldsymbol U^T)^{-1}oldsymbol y onumber oldsymbol{x}-oldsymbol{mu} &= oldsymbol Uoldsymbol y, 由于oldsymbol U^T为正交矩阵 onumber x_1&= u_{11}y_1+u_{21}y_2+...+u_{D1}y_D end{align} ]
可以看出(frac{part x_1}{part y_2}=u_{21})(u_{21})表示特征向量(oldsymbol u_2)的第一个值,在矩阵(oldsymbol U)中为第一行第二列的元素,也就是(U_{ij}=U_{12})。这就解释了雅各比矩阵的来源。再重复一遍,核心思想是矩阵(oldsymbol U)是一个变换矩阵,包含着平移和选择的信息。

根据正交矩阵的性质,可以有:
[ |oldsymbol J|^2 = |oldsymbol U|^2=|oldsymbol U^T||oldsymbol U|=|oldsymbol U^T oldsymbol U|=|oldsymbol I|=1 ]
因此(|oldsymbol J|=1),实际上由于这里只考虑其为正交矩阵,结果应为(pm 1)

之前的协方差矩阵的行列式可以写成:
[ |oldsymbol Sigma|=prod_{j=1}^D lambda_j onumber |oldsymbol Sigma|^{1/2}=prod_{j=1}^D lambda_j^{1/2} onumber ]

回顾一下,在原坐标系(oldsymbol x)下,高斯分布的形式为:
[ p(oldsymbol{x})=N(oldsymbol{x}|oldsymbol{mu},oldsymbol{Sigma})=frac{1}{(2pi)^{frac{D}{2}}|oldsymbolSigma|^{frac{1}{2}}}exp(-frac{1}{2}(oldsymbol{x}-oldsymbol{mu})^ToldsymbolSigma^{-1}(oldsymbol{x}-oldsymbol{mu})) ]
在经过上述推算后,在新坐标系(oldsymbol y)下的高斯分布形式为:
[ p(oldsymbol{y})=p(oldsymbol{x})|oldsymbol{J}|=prod_{j=1}^Dfrac{1}{sqrt{2pilambda_j}}expleft(-frac{y_j^2}{2lambda_j} ight) ]
(p(oldsymbol{y})=p(oldsymbol{x})|oldsymbol{J}|)之所以可以这么写,是因为雅各比矩阵就是特征矩阵,包含了平移和旋转的信息。

可以看到这其实就是D个独立一元高斯分布的乘积。就是说在特征向量定义的新的坐标系中,多元高斯分布可以理解为多个一维高斯分布的乘积。

其中:
[ E(oldsymbol{x})=oldsymbol{mu} onumberVar(oldsymbol{x})=oldsymbol{Sigma} ]

高斯分布的局限性

高斯分布被广泛应用于概率密度模型,但是也有局限性。

自由参数的数量

协方差矩阵(oldsymbol{Sigma})中有(D(D+1)/2)个参数,均值(oldsymbol{mu})中也有(D)个参数。可以看到参数的增长速度是维度(D)的平方。

随着维度增加,矩阵的计算、求逆等等会变得无法计算。

有时候我们可以约束协方差矩阵为对角矩阵,即各个变量之间相互独立。这样却限制了其描述模型的能力。

单峰

高斯分布本质是单峰的,即只有一个最大值,这使得它不能近似多峰分布。

参考

最大熵与正态分布

马氏距离和欧氏距离

矩阵指数

矩阵的特征分解

以上是关于PRML6-高斯分布1的主要内容,如果未能解决你的问题,请参考以下文章

高斯分布

随机过程8 - 多元高斯分布及其线性性质

随机过程8 - 多元高斯分布及其线性性质

随机过程8 - 多元高斯分布及其线性性质

怎么用MATLAB产生2维或者多维的高斯分布数据

多元高斯分布