PCA和LDA

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PCA和LDA相关的知识,希望对你有一定的参考价值。

参考技术A PCA是无监督的降维,降维后方差尽可能的大;
LDA是有监督的降维,希望分类后组内方差小,组间方差大;

聚类,降维;

原有的d维数据转化为k维数据(d>k),新生成的k维数据尽可能多的包含原来d为数据的信息。

让样本的均值为0;
方便后去求取协方差矩阵;
这并不属于数据预处理,因为数据预处理是对每一个特征维度进行处理的,而去中心化是针对每一个样本,这是PCA所必须的过程。
为什么要去中心化

方差:单个随机变量的离散程度;
协方差:两个随机变量的相似程度。
方差和协方差的一些区别

偏差是估计值与真实值之间的差距。
方差是描述预测值的变化范围,离散程度。

计算协方差矩阵

寻找一个线性变换u,使uX,即降维后的新数据方差最大。
这里可以令u的模长为1.
根绝拉格朗日优化后可知,S=λ;
那么最大化投影方差就是最大化原数据的协方差矩阵的特征值。
最佳的投影方向就是最大特征值对应的特征向量。

选取特征值的特征向量组成投影矩阵U=[u1,u2,...,uk]。
UX即为投影后新样本。

由于PCA是基于欧氏距离,因此对于线性不可分数据无能为力。
所以提出kernel PCA 。

分类,降维。
希望降维后类间距离最大,类内距离最小。
引入两个定义,类间散度Sb和类内散度Sw。

在计算类间散度和类内散度的时候用到了类别信息,所以LDA是有监督的降维。

PCA与LDA

  PCA和LDA都是降维算法,他们的主要区别是:

  PCA为无监督方法,主要是主成分分析方法,Principal Component Analysis, 简称PCA。

PCA可以降到任意维度。

  LDA是有监督方法,主要是线性判别分析法,Linear Discriminant Analysis ,简称LDA。

LDA最多只能降到数据类别 -1

 



以上是关于PCA和LDA的主要内容,如果未能解决你的问题,请参考以下文章

lbp和pca用啥软件

PCA和LDA

mlab PCA 和 sklearn PCA 的区别

机器学习实战基础(二十三):sklearn中的降维算法PCA和SVD PCA与SVD 之 PCA中的SVD

机器学习实战基础(二十三):sklearn中的降维算法PCA和SVD PCA与SVD 之 PCA中的SVD

Pyspark 和 PCA:如何提取此 PCA 的特征向量?我如何计算他们解释的方差有多大?