主成分分析(PCA)

Posted ^_^|

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了主成分分析(PCA)相关的知识,希望对你有一定的参考价值。

预备——样本均值和协方差

为准备主成分分析,另 [ X 1 ⋯ X N ] [X_1 \\cdots X_N] [X1XN]是如上描述的一个 p × N p \\times N p×N观测矩阵(p表示特征维数). 观测向量 X 1 , ⋯   , X N X_1, \\cdots , X_N X1,,XN样本均值M由下式给出: M = 1 N ( X 1 + ⋯ + X N ) M = \\frac{1}{N}(X_1 + \\cdots + X_N) M=N1(X1++XN)
k = 1 , ⋯   , N k=1, \\cdots, N k=1,,N,令 X k ^ = X k − M \\hat{X_k} = X_k - M Xk^=XkM
p × N p \\times N p×N矩阵的列 B = [ X 1 ^ , X 2 ^ ⋯ X N ^ ] B = [\\hat{X_1}, \\hat{X_2} \\cdots \\hat{X_N}] B=[X1^,X2^XN^]具有零样本均值,这样的B称为平均偏差形式
(样本)协方差矩阵是一个 p × p p \\times p p×p矩阵 S S S,其定义为 S = 1 N − 1 B B T S = \\frac{1}{N-1}BB^T S=N11BBT
为了讨论 S = [ s i j ] S = [s_{ij}] S=[sij]中的元素,令 X X X表示在观测向量集合中变换的向量,用 x 1 , ⋯   , x p x_1, \\cdots ,x_p x1,,xp表示 X X X的坐标,那么例如 x 1 x_1 x1是一个在 X 1 , ⋯   , X N X_1, \\cdots , X_N X1,,XN集合中变化的第一个坐标的数值。
S中的对角元素 s i i s_{ii} sii称为 x j x_j xj方差,数据的总方差是指 S S S中对角线上方差的总和。{总方差} = t r ( S ) tr(S) tr(S)
S中的元素 s i j ( i ≠ j ) s_{ij}(i \\neq j) sij(i=j)称为 x i x_i xi x j x_j xj的协方差

主成分分析

为了简单起见,假设矩阵 [ X 1 ⋯ X N ] [X_1 \\cdots X_N] [X1XN]已经是平均偏差形式。主成分分析的目标是找到一个 p × p p \\times p p×p正交矩阵 P = [ u 1 ⋯ u p ] P = [u_1 \\cdots u_p] P=[u1up],确定一个变量代换 X = P Y X = PY X=PY,或
[ x 1 x 2 ⋮ x p ] = [ u 1 u 2 ⋯ u p ] [ y 1 y 2 ⋮ y p ] \\left[\\begin{matrix} x_1 \\\\ x_2 \\\\ \\vdots \\\\ x_p \\end{matrix} \\right]= \\left[\\begin{matrix} u_1 & u_2 & \\cdots & u_p \\end{matrix} \\right] \\left[\\begin{matrix} y_1 \\\\ y_2 \\\\ \\vdots \\\\ y_p \\end{matrix} \\right] x1x2xp=[u1u2up]y1y2yp
并具有新的变量 y 1 , ⋯   , y p y_1, \\cdots ,y_p y1,,yp两两无关的性质,且整理后的方差具有递减顺序

这里我们观察到,其实此时 Y Y Y即是以

以上是关于主成分分析(PCA)的主要内容,如果未能解决你的问题,请参考以下文章

主成分分析(PCA)

主成分分析-PCA

05-03 主成分分析(PCA)

主成分分析(PCA)原理及R语言实现

PCA(主成分分析) 一

主成分分析(PCA)