SVD

Posted 2020-11-19 ylhe

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SVD相关的知识，希望对你有一定的参考价值。

PCA降维的大致思想就是： 挑选特征明显的、显得比较重要的信息保留下来。

那么关键就是【特征明显的，重要的信息】如何选择？选择标准有两个：
1：同一个维度内的数据，方差大的比较明显，因为方差大表示自己和平均水平差异大，有个性，降维后也最可能分的开～
2：两个不同维度间关联度越小越好，因为关联度小表示这两个维度表征共同信息的量比较少，最理想就是两个维度不相关，相关度为0（相关度可以用协方差cov(a,b)表示），在线性空间内表现为两个维度正交～

协方差矩阵的主对角线和其余元素正好可以分别表示方差和协方差，而根据两条标准又很容易想到求特征值和特征向量，推导过程

------------------------------------------------------------------------------------------------------------------

下面说一下为啥还有SVD，上面我们说PCA针对的是协方差矩阵C，但你得知道协方差矩阵是个方阵啊，难道不是方阵我们就不资瓷么？？所以就有了SVD～～

大概可以把SVD看作是对非方阵做PCA处理的一种方式啦，毕竟两者的套路都差不多，分解出特征值（SVD里是奇异值，数据XX‘的特征值的平方根），挑比较大的特征值对应的特征向量构成投影矩阵，然后做线性变换（将数据X投影到低维空间）

SVD分解出的左右两个矩阵表达的信息是不一样的，比如常见的推荐系统里一般会分解出用户信息和商品信息两个矩阵

任意一个M*N的矩阵A（M行*N列，M>N），可以被写成三个矩阵的乘积：

1. U：（M行M列的列正交矩阵）---用户信息

2. S：（M*N的对角线矩阵，矩阵元素非负）

3. V：（N*N的正交矩阵的倒置）---商品信息

即 A=U*S*V‘（注意矩阵V需要倒置）

直观地说：

假设我们有一个矩阵，该矩阵每一列代表一个user，每一行代表一个item。

技术分享图片

如上图，ben,tom….代表user，season n代表item。

矩阵值代表评分（0代表未评分）：

如 ben对season1评分为5，tom对season1 评分为5，tom对season2未评分。

机器学习和信息检索：

机器学习的一个最根本也是最有趣的特性是数据压缩概念的相关性。

如果我们能够从数据中抽取某些有意义的感念，则我们能用更少的比特位来表述这个数据。

从信息论的角度则是数据之间存在相关性，则有可压缩性。

SVD就是用来将一个大的矩阵以降低维数的方式进行有损地压缩。

降维：

下面我们将用一个具体的例子展示svd的具体过程。

首先是A矩阵。

A =

     5     5     0     5
     5     0     3     4
     3     4     0     3
     0     0     5     3
     5     4     4     5
     5     4     5     5

（代表上图的评分矩阵）

使用matlab调用svd函数：

[U,S,Vtranspose]=svd(A)

U =
   -0.4472   -0.5373   -0.0064   -0.5037   -0.3857   -0.3298
   -0.3586    0.2461    0.8622   -0.1458    0.0780    0.2002
   -0.2925   -0.4033   -0.2275   -0.1038    0.4360    0.7065
   -0.2078    0.6700   -0.3951   -0.5888    0.0260    0.0667
   -0.5099    0.0597   -0.1097    0.2869    0.5946   -0.5371
   -0.5316    0.1887   -0.1914    0.5341   -0.5485    0.2429

S =
   17.7139         0         0         0
         0    6.3917         0         0
         0         0    3.0980         0
         0         0         0    1.3290
         0         0         0         0
         0         0         0         0

Vtranspose =
   -0.5710   -0.2228    0.6749    0.4109
   -0.4275   -0.5172   -0.6929    0.2637
   -0.3846    0.8246   -0.2532    0.3286
   -0.5859    0.0532    0.0140   -0.8085

分解矩阵之后我们首先需要明白S的意义。

可以看到S很特别，是个对角线矩阵。

每个元素非负，而且依次减小，具体要讲明白元素值的意思大概和线性代数的特征向量，特征值有关。

但是可以大致理解如下：

在线性空间里，每个向量代表一个方向。

所以特征值是代表该矩阵向着该特征值对应的特征向量的方向的变化权重。

所以可以取S对角线上前k个元素。

当k=2时候即将S(6*4)降维成S(2*2)，

同时U(6*6),Vtranspose(4*4)相应地变为 U(6*2),Vtranspose(4*2).

如下图（图片里的usv矩阵元素值和我自己matlab算出的usv矩阵元素值有些正负不一致，但是本质是相同的）：

技术分享图片

此时我们用降维后的U，S，V来相乘得到A2

A2=U(1:6,1:2)*S(1:2,1:2)*(V(1:4,1:2))‘ //matlab语句

A2 =

    5.2885    5.1627    0.2149    4.4591
    3.2768    1.9021    3.7400    3.8058
    3.5324    3.5479   -0.1332    2.8984
    1.1475   -0.6417    4.9472    2.3846
    5.0727    3.6640    3.7887    5.3130
    5.1086    3.4019    4.6166    5.5822

此时我们可以很直观地看出，A2和A很接近，这就是之前说的降维可以看成一种数据的有损压缩。

接下来我们开始分析该矩阵中数据的相关性。

我们将u的第一列当成x值，第二列当成y值。即u的每一行用一个二维向量表示，同理v的每一行也用一个二维向量表示。

如下图：

技术分享图片