关于PCA的总结

Posted dongteng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于PCA的总结相关的知识,希望对你有一定的参考价值。

学tranformers的时候记得一种什么~~~流的降维方法,经过查看

链接:https://mp.weixin.qq.com/s?__biz=MzAxOTU5NTU4MQ==&mid=2247489739&idx=1&sn=c766511d71bd9ffcd17fb29536f59ca4&chksm=9bc5f099acb2798f5443ae6fccfedaf333c125dd723d4670dc32b8733ed1c665b8824e9e99f8&scene=178&cur_album_id=2308444106001661954#rd

自己论文用了PCA就寻思能不能用这种方法。而翻看西瓜书,PCA这种方法原来自己详细看过,时间太久了,记不太清了,纸质笔记到底是不方便携带啊。此处转载别人的文章以学习回忆。

来源链接:

知乎https://zhuanlan.zhihu.com/p/77151308

自己当时用的方式是将768维的数据降维。而之前微信群聊有人说直接取前多少维度即可。

1. 向量表示与基变换

我们先来介绍些线性代数的基本知识。

1.1 内积

两个向量的 A 和 B 内积我们知道形式是这样的:

内积运算将两个向量映射为实数,其计算方式非常容易理解,但我们无法看出其物理含义。接下来我们从几何角度来分析,为了简单起见,我们假设 A 和 B 均为二维向量,则:

其几何表示见下图:

 

 

 

 

 

我们看出 A 与 B 的内积等于 A 到 B 的投影长度乘以 B 的模。

如果假设 B 的模为 1,即让  ,那么就变成了:

也就是说,A 与 B 的内积值等于 A 向 B 所在直线投影的标量大小。

这就是内积的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。

1.2 基

在我们常说的坐标系中,向量 (3,2) 其实隐式引入了一个定义:以 x 轴和 y 轴上正方向长度为 1 的向量为标准。向量 (3,2) 实际是说在 x 轴投影为 3 而 y 轴的投影为 2。注意投影是一个标量,所以可以为负。

所以,对于向量 (3, 2) 来说,如果我们想求它在  这组基下的坐标的话,分别内积即可。当然,内积完了还是 (3, 2)。

所以,我们大致可以得到一个结论,我们要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了。为了方便求坐标,我们希望这组基向量模长为 1。因为向量的内积运算,当模长为 1 时,内积可以直接表示投影。然后还需要这组基是线性无关的,我们一般用正交基,非正交的基也是可以的,不过正交基有较好的性质。

1.3 基变换的矩阵表示

这里我们先做一个练习:对于向量 (3,2) 这个点来说,在  和  这组基下的坐标是多少?

我们拿 (3,2) 分别与之内积,得到  这个新坐标。

我们可以用矩阵相乘的形式简洁的表示这个变换:

左边矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。推广一下,如果我们有 m 个二维向量,只要将二维向量按列排成一个两行 m 列矩阵,然后用“基矩阵”乘以这个矩阵就可以得到了所有这些向量在新基下的值。例如对于数据点  来说,想变换到刚才那组基上,则可以这样表示:

我们可以把它写成通用的表示形式:

其中  是一个行向量,表示第 i 个基,  是一个列向量,表示第 j 个原始数据记录。实际上也就是做了一个向量矩阵化的操作。

上述分析给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列向量  变换到左边矩阵中以每一行行向量为基所表示的空间中去。也就是说一个矩阵可以表示一种线性变换。

2. 最大可分性

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,如果基的数量少于向量本身的维数,则可以达到降维的效果。

但是我们还没回答一个最关键的问题:如何选择基才是最优的。或者说,如果我们有一组 N 维向量,现在要将其降到 K 维(K 小于 N),那么我们应该如何选择 K 个基才能最大程度保留原有的信息?

一种直观的看法是:希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。当然这个也可以从熵的角度进行理解,熵越大所含信息越多

2.1 方差

我们知道数值的分散程度,可以用数学上的方差来表述。一个变量的方差可以看做是每个元素与变量均值的差的平方和的均值,即:

为了方便处理,我们将每个变量的均值都化为 0 ,因此方差可以直接用每个元素的平方和除以元素个数表示:

于是上面的问题被形式化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

 

 

 

以上是关于关于PCA的总结的主要内容,如果未能解决你的问题,请参考以下文章

主成分分析(PCA)原理总结

主成分分析(PCA)原理总结

主成分分析(PCA)原理总结

LDA和PCA降维总结

特征工程之特征选择----降维算法PCA重要参数

关于PCA的一些学习汇总