典型关联分析(CCA)原理总结

Posted 2020-09-03 我是小强zz

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了典型关联分析(CCA)原理总结相关的知识，希望对你有一定的参考价值。

　　典型关联分析(Canonical Correlation Analysis，以下简称CCA)是最常用的挖掘数据关联关系的算法之一。比如我们拿到两组数据，第一组是人身高和体重的数据，第二组是对应的跑步能力和跳远能力的数据。那么我们能不能说这两组数据是相关的呢？CCA可以帮助我们分析这个问题。

1. CCA概述

　　　　在数理统计里面，我们都知道相关系数这个概念。假设有两组一维的数据集X和Y，则相关系数

ρ (X, Y) = c o v ( X , Y ) D ( X )?????\sqrt D ( Y )?????\sqrt

　　　　其中

　　　　虽然相关系数可以很好的帮我们分析一维数据的相关性，但是对于高维数据就不能直接使用了。拿上面我们提到的，如果X是包括人身高和体重两个维度的数据，而Y是包括跑步能力和跳远能力两个维度的数据，就不能直接使用相关系数的方法。那我们能不能变通一下呢？CCA给了我们变通的方法。

　　　　CCA使用的方法是将多维的X和Y都用线性变换为1维的X‘和Y‘，然后再使用相关系数来看X‘和Y‘的相关性。将数据从多维变到1位，也可以理解为CCA是在进行降维，将高维数据降到1维，然后再用相关系数进行相关性的分析。下面我们看看CCA的算法思想。

2. CCA的算法思想

　　　　上面我们提到CCA是将高维的两组数据分别降维到1维，然后用相关系数分析相关性。但是有一个问题是，降维的标准是如何选择的呢？回想下主成分分析PCA，降维的原则是投影方差最大；再回想下线性判别分析LDA，降维的原则是同类的投影方差小，异类间的投影方差大。对于我们的CCA，它选择的投影标准是降维到1维后，两组数据的相关系数最大。

　　　　现在我们具体来讨论下CCA的算法思想。假设我们的数据集是X和Y，X为

　　　　对于X矩阵，我们将其投影到1维，或者说进行线性表示，对应的投影向量或者说线性系数向量为

X' = a T X, Y' = b T Y

　　　　我们CCA的优化目标是最大化

a r g

　　　　在投影前，我们一般会把原始数据进行标准化，得到均值为0而方差为1的数据X和Y。这样我们有：

c o v (X', Y') = c o v (a T X, b T Y) = E (< a T X, b T Y >) = E ((

D (X') = D (a T X) = a T E (X X T) a

D (Y') = D (b T Y) = b T E (Y Y T) b

　　　　由于我们的X，Y的均值均为0，则

D (X) = c o v (X, X) = E (X X T), D (Y) = c o v (Y, Y) = E (Y Y T)

c o v (X, Y) = E (X Y T), c o v (Y, X) = E (Y X T)

　　　　令

a r g

　　　　由于分子分母增大相同的倍数，优化目标结果不变，我们可以采用和SVM类似的优化方法，固定分母，优化分子，具体的转化为：

a r g

s . t . a T S X X a = 1,

　　　　也就是说，我们的CCA算法的目标最终转化为一个凸优化过程，只要我们求出了这个优化目标的最大值，就是我们前面提到的多维X和Y的相关性度量，而对应的

　　　　这个函数优化一般有两种方法，第一种是奇异值分解SVD，第二种是特征分解，两者得到的结果一样，下面我们分别讲解。

3. CCA算法的SVD求解

　　　　对于上面的优化目标，我们可以做一次矩阵标准化，就可以用SVD来求解了。

　　　　首先，我们令

a T S X X a = 1 ? u T S ? 1 / 2 X X S X X S ? 1 / 2

b T S Y Y b = 1 ? v T S ? 1 / 2 Y Y S Y Y S ? 1 / 2

a T S X Y b = u T S ? 1 / 2 X X S X Y S ? 1 / 2 Y

　　　　也就是说，我们的优化目标变成下式：

a r g

s . t . u T u = 1,

　　　　仔细一看，如果将u和v看做矩阵

u T S ? 1 / 2 X X S X Y S ? 1 / 2 Y Y v = u T U Σ V T

　　　　也就是说我们最大化

　　　　可以看出，SVD的求解方式非常简洁方便。但是如果你不熟悉SVD的话，我们也可以用传统的拉格朗日函数加上特征分解来完成这个函数的优化。

4. CCA算法的特征分解求解　　

　　　　特征分解方式就比较传统了，利用拉格朗日函数，优化目标转化为最大化下式：

J (a, b) = a T S X Y b ? λ 2 ( a T S X X a ? 1 ) ? θ 2 ( b T S

　　　　分别对

S X Y b ? λ S X X a = 0

S Y X a ? λ S Y Y b = 0

　　　　将上面第一个式子左乘

λ = θ = a T S X Y b

　　　　其实也就是说我们的拉格朗日系数就是我们要优化的目标。我们继续将上面的两个式子做整理，第一个式子左乘

S ? 1 X X S X Y b = λ a

S ? 1 Y Y S Y X a = λ b

　　　　将上面第二个式子带入第一个式子，我们得到

S ? 1 X X S X Y S ? 1 Y Y S Y X a = λ 2 a

　　　　这个式子我们就熟悉了，这不就是特征分解吗！要求最大的相关系数

　　　　同样的办法，我们将上面第一个式子带入第二个式子，我们得到

S ? 1 Y Y S Y X S ? 1 X X S X Y b = λ 2 b

　　　　可以看出特征分解的方法要比SVD复杂，但是两者求得的结果其实是等价的，只要利用SVD和特征分解之间的关系就很容易发现两者最后的结果相同。

5. CCA算法流程

　　　　这里我们对CCA的算法流程做一个总结，以SVD方法为准。

　　　　输入：各为m个的样本X和Y，X和Y的维度都大于1

　　　　输出：X,Y的相关系数

　　　　1）计算X的方差

　　　　2) 计算矩阵

　　　　3）对矩阵

　　　　4) 计算X和Y的线性系数向量a和b,

　　　　可见算法流程并不复杂，但是要理解这个算法需要了解一些背景知识。

6. CCA算法小结

　　　　CCA算法广泛的应用于数据相关度的分析，同时还是偏最小二乘法的基础。但是由于它依赖于数据的线性表示，当我们的数据无法线性表示时，CCA就无法使用，此时我们可以利用核函数的思想，将数据映射到高维后，再利用CCA的思想降维到1维，求对应的相关系数和线性关系，这个算法一般称为KCCA。

　　　　此外，我们在算法里只找了相关度最大的奇异值或者特征值，作为数据的相关系数，实际上我们也可以像PCA一样找出第二大奇异值，第三大奇异值，。。。得到第二相关系数和第三相关系数。然后对数据做进一步的相关性分析。但是一般的应用来说，找出第一相关系数就可以了。

　　　　有时候我们的矩阵

以上是关于典型关联分析(CCA)原理总结的主要内容，如果未能解决你的问题，请参考以下文章