LDA和PCA降维的原理和区别

Posted 2021-01-10 r-dog

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了LDA和PCA降维的原理和区别相关的知识，希望对你有一定的参考价值。

LDA算法的主要优点有：

在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。
LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

LDA算法的主要缺点有：

LDA不适合对非高斯分布样本进行降维，PCA也有这个问题。
LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。
LDA可能过度拟合数据。

PCA算法的主要优点有：

仅仅需要以方差衡量信息量，不受数据集以外的因素影响。　
各主成分之间正交，可消除原始数据成分间的相互影响的因素。
计算方法简单，主要运算是特征值分解，易于实现。
当数据受到噪声影响时，最小的特征值所对应的特征向量往往与噪声有关，舍弃能在一定程度上起到降噪的效果。

PCA算法的主要缺点有：

主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强。
方差小的非主成分也可能含有对样本差异的重要信息，因降维丢弃可能对后续数据处理有影响。

LDA与PCA

相同点：

两者均可以对数据进行降维。
两者在降维时均使用了矩阵特征分解的思想。
两者都假设数据符合高斯分布。

不同点：

LDA是有监督的降维方法，而PCA是无监督的降维方法。（LDA输入的数据是带标签的，PCA输入的数据是不带标签的）
LDA降维最多降到类别数k-1的维数，而PCA没有这个限制。（PCA采用的是最大的特征所对应的特征向量来进行降维的处理。降到的维数和选择的最大特征的个数有关）
LDA除了可以用于降维，还可以用于分类。（降维后得到一个新的样品数据，要确定某一个未知的样本属于那一类，对该样本进行同样的线性变换，根据其投影到的位置来进行分来（判别分析问题？））
LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。

以上是关于LDA和PCA降维的原理和区别的主要内容，如果未能解决你的问题，请参考以下文章

面试题：LDA和PCA区别

常用降维方法之PCA 和 LDA

机器学习面试问答：PCA算法介绍？PCA算法过程？PCA为什么要中心化处理？PCA为什么要做正交变化？PCA与线性判别分析LDA降维的区别？

LDA和PCA降维总结