DeepLearning 预处理：主成分分析与白化

Posted 2020-11-04 花月世界

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了DeepLearning 预处理：主成分分析与白化相关的知识，希望对你有一定的参考价值。

【原创】Liu_LongPo 转载请注明出处
【CSDN】http://blog.csdn.net/llp1992

PCA算法前面在前面的博客中已经有介绍，这里简单在描述一下，更详细的PCA算法请参考我的博客：机器学习实战ByMatlab（二）PCA算法

PCA 的主要计算步骤

1.数据预处理，使得每一维数据都有相同的均值0
2.计算数据的协方差矩阵， $Σ = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)}) (x^{(i)})^{T}$

PCA 的另外一种解释是： $x_{r o t}$

还原近似数据

当我们得到降维后的数据 $x^{'}$

选择主成分的个数

关于PCA中主成分的个数 $k$

如果 $k$

我们通常考虑的是不同 $k$

一般而言，设 $λ_{1}, λ_{2}, . . ., λ_{n}$

\sum k j = 1 λ j \sum n j = 1 λ j

以处理图像数据为例，一个惯常的经验法则是选择 $k$

\sum k j = 1 λ j \sum n j = 1 λ j \geq 99 %

对图像数据应用PCA算法

假设我们的特征为 $x_{1}, x_{2}, . . ., x_{n}$

所以对图像进行处理时，步骤如下：

1.求特征均值： $u^{(i)} := \frac{1}{n} \sum_{j = 1}^{n} x_{j}^{(i)}$

白化

白化其实跟PCA算法还是挺相似的。举例来说，假设训练数据是图像，由于图像中相邻像素之间具有很强的相关性，所以用于训练时输入是冗余的。白化的目的就是降低输入的冗余性；更正式的说，我们希望通过白化过程使得学习算法的输入具有如下性质：

1.特征之间相关性较低
2.所有特征具有相同的方差(图像处理中我们一般设置为单位方差)

在PCA算法中，我们对数据进行降旋转 $x_{r o t}^{(i)} = U^{T} x^{(i)}$

显然这是一个二维数据分布，其中横轴 $x_{1}$

此时 $x_{2}$

特征单位方差处理

为了使每个输入特征具有单位方差，我们可以直接使用 $\frac{1}{\sqrt{λ_{i}}}$

x P C A w h i t e, i = x r o t , i λ i??\sqrt

此时的 $x_{P C A w h i t e, i}$

ZCA 白化

假如 $R$

x Z C A w h i t e = U x P C A w h i t e

正则化

实践中需要实现PCA白化或ZCA白化时，有时一些特征值 $λ_{i}$

x P C A w h i t e, i = x r o t , i λ i + ??????\sqrt

当 $x$

matlab 实例

1.图像加载 12x12 的patch，共10000个，转换为 144x10000的矩阵，即数据是144维

x = sampleIMAGESRAW();

随机显示200个图像块，如下图：

2.零均值化

meanVal = mean(x);
x = bsxfun(@minus,x,meanVal);

此时 $x$

3.求协方差矩阵，并对协方差矩阵进行奇异值分解，再对数据进行特征向量投影

xRot = zeros(size(x)); 
[u,d] = svd(x*x‘/size(x,2)); 
xRot = u‘ * x;

4.PCA 检测，计算协方差矩阵

covar = zeros(size(x, 1)); 
covar = xRot*xRot‘/size(xRot,2);

此时的协方差矩阵为144x144的矩阵，显示为图像如下：

对角线为数据的自相关，也就是方差，值最大，所以颜色最亮，两边为协方差，值比较小，故颜色较暗，这里为蓝色。

5. 寻找能够保留90%方差的最小 $k$

k = 0; 
dVal = diag(d); % 列向量
sumDVal = sum(dVal);
kP = 0;
while kP<0.9
    k = k+1;
    kP = sum(dVal(1:k)) / sumDVal;
end

此时 $k$

6. PCA降维

xHat = zeros(size(x));  
xHat = u(:,1:k) * xRot(1:k,:);

将 144维的数据降维到43维，并用43维数据还原图像如下：

7. PCA白化与规则化

epsilon = 0.1;
xPCAWhite = zeros(size(x));
xPCAWhite =  bsxfun(@rdivide,xRot,sqrt((dVal+epsilon)));

8. 检测PCA白化是否正确，计算协方差矩阵并显示

covar = xPCAWhite * xPCAWhite‘ / size(xPCAWhite,2);

白化后的协方差矩阵图像如下：

如果没有进行规则化，也就是我们将 $ϵ$

9.ZCA白化

xZCAWhite = zeros(size(x));
xZCAWhite = u*xPCAWhite;

ZCA白化后图像如下：

以上是关于DeepLearning 预处理：主成分分析与白化的主要内容，如果未能解决你的问题，请参考以下文章

MATLAB实战系列（二十七）-数据预处理-PCA主成分分析

PCA （主成分分析）详解