PCA(主成分分析)的简单理解

Posted 2020-09-12 hapjin

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了PCA(主成分分析)的简单理解相关的知识，希望对你有一定的参考价值。

PCA(Principal Components Analysis)，它是一种“投影(projection)技巧”，就是把高维空间上的数据映射到低维空间。比如三维空间的一个球，往坐标轴方向投影，变成了一个圆。球是3维的，圆是2维的。在球变成圆的这个投影过程中，丢失了原来物体(球)的一部分“性质”---圆不是球了，只有面积没有体积了；也保留了原来物体的一部分性质---圆和球还是很像的……

而对于一个训练样本y而言，假设它有M个特征(M维)，y={y₁, y₂,...y_M}，通过PCA，进行投影，降维成D维(M>D)。为什么要降维？最主要的两个原因是：

①可视化，我们只能看到一维、二维、三维空间上的物体，当某物体需要4维或以上特征表示时，只能想象了……

②特征选择(feature selection)，比如说采集到的某个样本由 20维特征组成，其中有一些特征属于“噪音(noise)"，而由于某些原因，我们不想要这些“噪音”。又比如说，存在特征冗余，描述一个球，可以用如下特征：(体积、面积、直径、半径)，其实我只需要知道半径、直径、面积、体积这些都可以通过公式求出来。因此，体积、面积、直径这些特征，相对于半径来说，是冗余的特征。

如何降维？

PCA降维的目标就是：找到一种投影方式，将原来的M维样本y 变成 D维样本x，并且使得投影之后的D维样本x，能够尽可能多地保存原来的样本y中的信息。由于将y投影成x，可以有不同的投影方向，那哪个投影方向比较好呢？即，能够尽可能多地保存原来的样本y中的信息呢？

maintains the characteristics of the original object as much as possible

可以使用方差来衡量投影方向的好坏。如下图：

上图中有“两团点”，在聚类算法中称为有两个聚簇。将这两个簇中的点往B方向投影，B箭头指向的那条直线上的点，表示投影之后得到的新样本点，已经看不出有两个簇了。而此时，得到的方差是σ_²B=8.35.

往A方向投影，A箭头指向的那条直线上的点，还能够明显地看出有两类，即还能够保存“两个簇“的结构，这说明投影方向A比B 要好，因为原来的样本点有两个簇，而往A方向投影后，还能看出有两个簇。此时得到的方差σ_²A=17.37.

这表明：可以使用投影后的所有样本点的方差大小，来衡量投影方向的好坏！

假设有N个样本点，用Y表示，每个样本点是M维的。现在使用PCA降维，降成D维的，用X表示。X中还是有N个样本点，只是每个样本的维数变成D维的了。

这种投影方式，用矩阵乘法表示：X_N*D=Y_N*M*W_M*D

对于投影之后的样本x 的第d个特征x_nd而言，有：

x_n1=w₁^T*y_n ,x_n2=w₂^T*y_{n ，....}x_nd=w_d^T*y_n

x_n=（x_n1,x_n2,...x_nd)^T=W^T*y_n

也就是说，PCA降维的本质是：找到一个M*D维的矩阵W。可以对W=(w₁,w₂,...w_d)进行一些约束：||w_i||=1，且w^T_i*w_j=0 (j != i)，只要W满足：X=Y*W即可。

在数学上，PCA投影是一种线性变换。因为，根据线性变换的定义：

给定函数L: Rⁿ-->R^m，如果：

对于任意的x belongs to Rⁿ，a 属于实数R，有L(a*x)=a*L(x)
对于任意的x，y belongs to Rⁿ，有L(x+y)=L(x)+L(y)

则称函数L是一个线性变换。线性变换对加法和数乘封闭。上面的条件1，表示L对数乘封闭；条件2，表示L对加法封闭。

而对于矩阵A而言， A*x=b，是满足线性变换的定义的。比如，对于向量x和y，A(x+y)=A*x + A*y；对于实数a，A(a*x)=a*A*x

将矩阵A 作用于向量x 上，即矩阵A与向量x相乘，就相当于函数L 作用于x上。

因此，由x_n=（x_n1,x_n2,...x_nd)^T=W^T*y_n，可知：PCA是一个线性变换。

回到公式：X_N*D=Y_N*M*W_M*D，如何选择合适的W矩阵呢?----使用方差最大来确定W矩阵。因为方差可以衡量投影方向的好坏。

而将矩阵A与向量u相乘，其实就是改变了向量u的方向和大小而已。但是，如果向量u是矩阵A的特征向量，那么 A*u 不会改变向量u的方向。如下图：

在求解投影后的样本集X 的方差之前，先假设原始样本集Y的每一维特征的均值为0（m个0），即y^¯¯=[0,0,...0]^T。为了简化讨论，假设将原来的M维降成 D=1维。此时，W矩阵就退化为只有一个向量。即寻找一个向量w，对于Y中任何一个样本y_n=(y_n1,y_n2,...y_nm)，有x_n =(x_n1,x_n2,...x_nd)=(x_n1)= w^T*y_n