线性判别分析LDA总结

Posted 2021-02-06 yumoye

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了线性判别分析LDA总结相关的知识，希望对你有一定的参考价值。

在主成分分析（PCA）原理总结中，我们对降维算法PCA做了总结。这里我们就对另外一种经典的降维方法线性判别分析（Linear Discriminant Analysis, 以下简称LDA）做一个总结。LDA在模式识别领域（比如人脸识别，舰艇识别等图形图像识别领域）中有非常广泛的应用，因此我们有必要了解下它的算法原理。

　　　　在学习LDA之前，有必要将其自然语言处理领域的LDA区别开来，在自然语言处理领域， LDA是隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA），他是一种处理文档的主题模型。我们本文只讨论线性判别分析，因此后面所有的LDA均指线性判别分析。

1. LDA的思想

　　　　LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。什么意思呢？我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。

　　　　可能还是有点抽象，我们先看看最简单的情况。假设我们有两类数据分别为红色和蓝色，如下图所示，这些数据特征是二维的，我们希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

技术分享图片

上图中国提供了两种投影方式，哪一种能更好的满足我们的标准呢？从直观上可以看出，右图要比左图的投影效果好，因为右图的黑色数据和蓝色数据各个较为集中，且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了，当然在实际应用中，我们的数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

　　　　在我们将上面直观的内容转化为可以度量的问题之前，我们先了解些必要的数学基础知识，这些在后面讲解具体LDA原理时会用到。

2. 瑞利商（Rayleigh quotient）与广义瑞利商（genralized Rayleigh quotient）

　　　　我们首先来看看瑞利商的定义。瑞利商是指这样的函数 $R (A, x)$

$R (A, x)$

　　　　其中x为非零向量，而A为n×n的Hermitan矩阵。所谓的Hermitan矩阵就是满足共轭转置矩阵和自己相等的矩阵，即$A^{H} = A$。如果我们的矩阵A是实矩阵，则满足$A^{T} = A$的矩阵即为Hermitan矩阵。

　　　　瑞利商R(A,x)有一个非常重要的性质，即它的最大值等于矩阵A最大的特征值，而最小值等于矩阵A的最小的特征值，也就是满足

$λ^{min} <= frac{x^{H}Ax}{x^{H}x} <= λ^{max}$

　　　　具体的证明这里就不给出了。当向量x是标准正交基时，即满足$x^{H}x = 1$时，瑞利商退化为：$R(A,x) = x^{H}x$，这个形式在谱聚类和PCA中都有出现。

　　　　以上就是瑞利商的内容，现在我们再看看广义瑞利商。广义瑞利商是指这样的函数R(A,B,x):

$R(A,x) = frac{x^{H}Ax}{x^{H}Bx}$

其中 $x$

x^{H}Bx = x{}‘^{H}B^{-1/2}x{}‘ = x{}‘^{H}B^{-1/2}x{}‘ = x{}‘^{H}x{}‘

　　　　而分子转化为：

x^{H}Bx = x{}‘^{H}(B^{-1/2})AB^{-1/2}x{}‘

　　　　此时我们的 $R (A, B, x)$

R(A,B,x{}‘) = frac{x{}‘^{H}B^{-1/2}AB^{-1/2}x{}‘}{x{}‘^{H}x{}‘}

　　　　利用前面的瑞利商的性质，我们可以很快的知道， $R (A, B, x)$

3. 二类LDA原理

　　　　现在我们回到LDA的原理上，我们在第一节说讲到了LDA希望投影后希望同一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大，但是这只是一个感官的度量。现在我们首先从比较简单的二类LDA入手，严谨的分析LDA的原理。

　　　　假设我们的数据集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., ((x_{m}, y_{m}))}$

　　　　 $μ_{j}$

μ j = 1 N j \sum x \in X j x

　　　　 $Σ_{j}$

Σ j = \sum x \in X j (x ? μ j) (x ? μ j) T

　　　　由于是两类数据，因此我们只需要将数据投影到一条直线上即可。假设我们的投影直线是向量 $w$

a r g

　　　　我们一般定义类内散度矩阵 $S_{w}$

S w = Σ 0 + Σ 1 = \sum x \in X 0 (x ? μ 0) (x ? μ 0) T + \sum x \in X 1

　　　　同时定义类间散度矩阵 $S_{b}$

S b = (μ 0 ? μ 1) (μ 0 ? μ 1) T

　　　　这样我们的优化目标重写为：

a r g

　　　　仔细一看上式，这不就是我们的广义瑞利商嘛！这就简单了，利用我们第二节讲到的广义瑞利商的性质，我们知道我们的 $J (w)$

　　　　注意到对于二类的时候， $S_{b} w^{'}$

4. 多类LDA原理

　　　　有了二类LDA的基础，我们再来看看多类别LDA的原理。

　　　　假设我们的数据集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., ((x_{m}, y_{m}))}$

　　　　由于我们是多类向低维投影，则此时投影到的低维空间就不是一条直线，而是一个超平面了。假设我们投影到的低维空间的维度为d，对应的基向量为 $(w_{1}, w_{2}, . . . w_{d})$

　　　　此时我们的优化目标应该可以变成为:

W T S b W W T S w W

　　　　其中 $S_{b} = \sum_{j = 1}^{k} N_{j} (μ_{j} - μ) (μ_{j} - μ)^{T}$

　　　　但是有一个问题，就是 $W^{T} S_{b} W$

　　　　常见的一个LDA多类优化目标函数定义为：

a r g

　　　　其中 $\prod_{d i a g} A$

　　　　 $J (W)$

J (W) = \prod i = 1 d w T i S b w i \prod i = 1 d w T i S w w i =

　　　　仔细观察上式最右边，这不就是广义瑞利商嘛！最大值是矩阵 $S_{w}^{- 1} S_{b}$

　　　　由于 $W$

5. LDA算法流程

　　　　在第三节和第四节我们讲述了LDA的原理，现在我们对LDA降维的流程做一个总结。

　　　　输入：数据集 $D = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., ((x_{m}, y_{m}))}$

　　　　输出：降维后的样本集$ $D^{'}$

$D^{'}$

　　　　6) 得到输出样本集 $D^{'} = {(z_{1}, y_{1}), (z_{2}, y_{2}), . . ., ((z_{m}, y_{m}))}$

　　　　以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外，还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个类别投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它属于这个类别的概率，最大的概率对应的类别即为预测类别。

　　　　由于LDA应用于分类现在似乎也不是那么流行，至少我们公司里没有用过，这里我就不多讲了。