机器学习-降维简介

Posted TD程序员

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习-降维简介相关的知识,希望对你有一定的参考价值。

  机器学习: 正如本文所讨论的机器学习不过是一个研究领域,它允许计算机像人类一样“学习”而无需显式编程。 

什么是预测建模: 预测建模是一个概率过程,允许我们根据一些预测变量来预测结果。这些预测变量基本上是在决定最终结果(即模型的结果)时发挥作用的特征。

降维是在保留尽可能多的信息的同时减少数据集中特征(或维度)数量的过程。出于多种原因,可以这样做,例如降低模型的复杂性、提高学习算法的性能或使数据更容易可视化。有几种降维技术,包括主成分分析 (PCA)、奇异值分解 (SVD) 和线性判别分析 (LDA)。每种技术都使用不同的方法将数据投影到低维空间,同时保留重要信息。

什么是降维?

在机器学习分类问题中,最终分类所依据的因素往往太多。这些因素基本上是称为特征的变量。特征的数量越多,就越难可视化训练集然后对其进行处理。有时,这些特征中的大多数是相关的,因此是多余的。这就是降维算法发挥作用的地方。降维是通过获取一组主变量来减少所考虑的随机变量数量的过程。它可以分为特征选择和特征提取。

为什么降维在机器学习和预测建模中很重要?

降维的一个直观例子可以通过一个简单的电子邮件分类问题来讨论,我们需要对电子邮件是否为垃圾邮件进行分类。这可能涉及大量的特征,例如电子邮件是否具有通用标题、电子邮件的内容、电子邮件是否使用模板等。但是,其中一些特征可能会重叠. 在另一种情况下,依赖于湿度和降雨量的分类问题可以分解为仅一个基本特征,因为上述两者高度相关。因此,我们可以减少此类问题中的特征数量。3-D 分类问题可能难以形象化,而 2-D 分类问题可以映射到简单的二维空间,而 1-D 问题可以映射到简单的直线。下图说明了这个概念,

 

降维的组成部分

降维有两个组成部分:

  • 特征选择:在此,我们尝试找到原始变量集或特征的子集,以获得可用于对问题建模的较小子集。通常涉及三种方式:
    1. 筛选
    2. 包装纸
    3. 嵌入式
  • 特征提取:这将高维空间中的数据减少到较低维空间,即具有较小编号的空间。尺寸。

降维方法

用于降维的各种方法包括:

  • 主成分分析 (PCA)
  • 线性判别分析 (LDA)
  • 广义判别分析 (GDA)

降维可以是线性的也可以是非线性的,这取决于所使用的方法。下面讨论称为主成分分析或 PCA 的主要线性方法。

主成分分析

这种方法是由 Karl Pearson 介绍的。它的工作条件是,当高维空间中的数据映射到低维空间中的数据时,低维空间中数据的方差应最大。

它涉及以下步骤:

  • 构造数据的协方差矩阵。
  • 计算该矩阵的特征向量。
  • 对应于最大特征值的特征向量用于重建原始数据的大部分方差。

因此,我们只剩下较少数量的特征向量,并且在此过程中可能会丢失一些数据。但是,最重要的方差应该由剩余的特征向量保留。 

降维的优势

  • 它有助于数据压缩,从而减少存储空间。
  • 它减少了计算时间。
  • 它还有助于删除冗余功能(如果有)。

降维的缺点

  • 它可能会导致一些数据丢失。
  • PCA 倾向于发现变量之间的线性相关性,这有时是不可取的。
  • 在均值和协方差不足以定义数据集的情况下,PCA 会失败。
  • 我们可能不知道要保留多少主成分——在实践中,应用了一些经验法则。

要点:

  • 降维是在保留尽可能多的信息的同时减少数据集中特征数量的过程。
    这样做可以降低模型的复杂性,提高学习算法的性能,或使数据更容易可视化。
  • 降维的技术包括:主成分分析(PCA)、奇异值分解(SVD)和线性判别分析(LDA)。
  • 每种技术都将数据投射到低维空间,同时保留重要信息。
  • 在构建模型之前的预处理阶段执行降维以提高性能
  • 重要的是要注意降维也会丢弃有用的信息,因此在应用这些技术时必须小心。

机器学习实战—降维

文章目录

一.简介

在实际的机器学习案例中,我们的实例可能会涉及成千上万甚至数百万个特征,这样会导致我们模型的整个的训练过程会极其的缓慢,这个问题通常称为维度的诅咒。而我们可以通过数据降维去减少我们应用到实际训练的特征,此时担忧来了,特征的减少会不会影响模型的精确度。实际是,数据降维确实会丢失一些信息,它虽然能够加速训练,但是会轻微降低系统性能,同时它也会让流水线更加的复杂,维护难度大大上升;不过在有些情况下,降低数据的维度可能会过滤掉一些不必要的噪声和细节,从而导致性能更加的好(因为不同的特征对模型的影响程度是不同的,甚至有些特征完全对我们的训练目标不会造成影响)。另一方面,在我们的世界中我们可能能想象的最高维度就是三维空间,就像我们在《星际穿越》的结尾看到主角库珀进入的五维空间也只是人类的一个想象,所以我们太习惯三维空间,所以当我们试图去想象一个高维空间时,是很难想象的。所以降低维度可以帮助我们更好的去理解空间中数据在空间中的分布。

二.降低维度的主要方法

2.1 简介

在学习机器学习中真正的降维算法之前,我们需要了解两种减少维度的方法:投影和流形学习

2.2 投影

投影的原理还是比较好理解的,打个比方如果我们用一束光射向一个篮球,最后在墙面上程序的影子就是一个圆形,这样我们就实现了将三维的球降维成了二维的圆。

如上图我们将位于三维空间(实例有三个特征x,y,z)的实例映射到了二维,此时在二维平面上实例点通过降低维度抛弃了特征y,只有两个特征x,y。这样通过投影就实现了降维。

投影的缺点:

通过上面我们知道了投影的原理,但是我们设想一下这种情况,如果数据在三维空间中的分布是扭曲的,这时候投影就不能很好的处理降维工作了。设想数据的分布类似瑞士卷,这时候直接进行投影的话会让瑞士卷的不同层数据挤压到一起,此时我们需要在二维平面上展开瑞士卷,这时候就涉及到更复杂的技术。

2.3 流形学习

在理解流行学习之前,我们需要理解一下什么叫做流形,流形是局部具有欧几里得空间性质的空间,在数学中用于描述几何形体。通俗理解就是如果我们将上面的瑞士卷展开,这时瑞士卷就变成二维了,但我们可以通过让瑞士卷卷起来去在三维空间中去表示它,而卷起来的瑞士卷就是我们所说的流形。所以我们称上面的瑞士卷就是一个2D流形,2D流形就是可以在更高维度的空间中弯曲和扭曲的2D形状,更一般而言d维流形是n维空间(其中d<n)的一部分,局部类似于d维超平面,在瑞士卷的情况下,d=2且n=3时,它的局部类似于2D平面,但是在第三维中弯曲。

现在我们给出流形学习的定义,例如我们可以假设某些高维数据,例如图像,本身是由某些低维分布产生的。那么,我们就可以通过流形学习的手段,将数据从高维降低到低维,从而更好地把握数据的本质。例如下图我们取 x 1 x_1 x1=5作为我们的决策边界,然后展开流行就得到了图2的2D效果(可以看出有很好的分类效果),这就是通过流形学习降低维度的原理。

三.PCA降维

3.1 简介

PCA(主成分分析)就是我们上面介绍的投影的一种,是迄今为止最流行的降维算法,它会识别最靠近数据的超平面,然后将数据投影到其上。

3.2 保留差异性

在我们使用PCA时,我们要去选择最合适的超平面去让数据投影到其上,而选取超平面的原则就是尽量让数据投影到超平面上时能保留最大的差异性。下面举一个二维降到一维的例子来讲解什么是差异性:

上图假设PCA取了两个超平面l1和l2,可以发现l1上最后投影的数据差异性是很大的,而l2很多数据投影后被压缩到了一起,差异性过小,所以PCA会选择l1作为其超平面。那么在实际应用中我们该如何确定这个超平面呢?思路就是比较原始数据集与其轴上的投影之间的均方距离,使这个均方距离最小的轴是最合理的选择,这就是PCA背后简单的思想。

3.3 主要成分

通过上面的分析我们总结一下PCA的原理。PCA的主要思想是将n维特征映射到d维上(如3.2中的n是2,的维是1),这d维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的d维特征。PCA的构造主成分的流程如下:

  1. 第一个主成分:选择原始数据中差异性最大的超平面(如上面使用均方距离来判断)
  2. 第二个主成分:选取与第一个主成分正交的超平面,然后选择选择使原始数据差异性最大的超平面(如3.2中只有l2与l1是正交的)
  3. 第三个主成分:选取与第一个与第二主成分正交的超平面,如何同选取使得原始数据差异性最大的超平面作为第三个主成分
  4. 以此类推,迭代上面过程直到找出n个主成分(虽然我们找到了与原始数据维度相同数量的主成分数量,但我们会发现大部分方差都包含在前面d个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面d个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,这样就实现对数据特征的降维处理)

那么训练集的主成分是如何找的,PCA使用的是一种称为奇异值分解(SVD矩阵论知识)的标准矩阵分解技术,来获取主成分矩阵的:
V = ( C 1 , C 2 , C 3 , . . . . . , C n ) V= \\beginpmatrix \\\\ C_1,C_2,C_3,.....,C_n \\\\ \\\\ \\endpmatrix V= C1,C2,C3,.....,Cn

在Python代码中可以使用Numpy中的svd()函数来获得所有的主主成分:

from sklearn.datasets import load_iris
import numpy as np
iris=load_iris()
x=iris.data
xcenter=x-x.mean(axis=0)#求每个特征的均方差
U,S,Vt=np.linalg.svd(xcenter)
Vt.T

结果分析:

鸢尾花数据有四个特征,所以其数据都分布在四维空间中,所以这里产生来4个主成分(1列为一个坐标)

3.4 向下投影到d维度

上面我们已经知道列主成分的求法,那么我们就可以将数据集映射到前d个主成分定义的超平面上了,要将训练集投影到超平面上并得到维度为d的简化数据集,计算方法上训练集矩阵X于矩阵 W d W_d Wd的矩阵相乘,矩阵 W d W_d Wd定义为包含V的前d项矩阵,计算公式如下:

X d − p r o j = X W d X_d-proj=XW_d Xdproj=XWd

python代码如下:

W2=Vt.T[:,:2]  #这里的2就是选取V的前两列,即将4维的鸢尾花数据映射到2维上
X2D=xcenter.dot(W2)

3.5 在Scikit-learn使用PCA的接口

from sklearn.decomposition import PCA
pca=PCA(n_components=2)#降为2维
X2D2=pca.fit_transform(x)

3.6 可解释方差比

可解释方差比表示沿每个成分的数据集方差的比率,它们的和<=1, 可解释方差之和比越接近1,特征数越多,越接近原数据。在scikit-learn可以通过explained_variance_ratio_变量来获取。

pca.explained_variance_ratio_

可解释方差比可以帮助我们降维时选择合适的维度,只要将n_component设置为我们想要的可解释方差比即可,scikit-learn会帮助我们自动去选择合适的维度。

pca=PCA(n_components=0.95)
X_reduce=pca.fit_transform(x)
X_reduce

总的来说,pca会将高维数据映射到低维,不仅让我们可以直观的观察数据加快模型训练过程,还可以一定程度上对大数据集进行了一定的压缩(因为有特征数量变少了)

3.7 随机PCA

随机PCA是另一种PCA算法,它可以比传统使用SVD方法的PCA更快的找到主成分(这就意味着当n和d差距比较大时,随机PCA可以更快的帮我们找到d个主成分)。在scikit-learn我们只需要将svd_solver设置为"randomized"即可:

rnd_pca=PCA(n_components=2,svd_solver="randomized")
x_reduce=rnd_pca.fit_transform(x)

其实在实际使用中,我们可以将svd_solver设置为auto,这样Scikit-learn会自动帮助我们在不同的情况下选择合适的pca算法。

3.8 增量PCA(IPCA)

我们都知道电脑的内存是有限的,就拿我的电脑内存是16个G来说,如果我要用我电脑去在32G的数据上跑PCA算法,如果我使用前面介绍的PCA算法,我的内存就会爆炸(因为前面的PCA算法都需要一次性将整个训练集放入内存,这远不是我电脑内存能够承受的),所以就出现了增量PCA算法,它会将训练集划分为多个小批量,并一次将一个小批量送入(IPCA)算法,因为内存和存储之间交换数据是很花费时间的,所以IPCA效率不如前面介绍的PCA算法。使用方法如下:

from sklearn.decomposition import IncrementalPCA
n_batcher=6 #将鸢尾花数据分为6个批量
inc_pca=IncrementalPCA(n_components=2)
for X_batch in np.array_split(x,6):
    inc_pca.partial_fit(X_batch)
X_reduce=inc_pca.transform(x)

四.内核PCA

4.1 简介

我在支持向量机这篇博客中介绍了一个多项式核技术,它是一种数据技术,可以将实例隐式的映射到一个高维的空间,从而可以使用支持向量机进行非线性分类和回归。在前面我们都是选择线性的超平面来映射数据集。然而有时候,数据不是线性的,不能直接进行PCA降维。这里就需要用到和支持向量机一样的核函数的思想,先把数据集从n维映射到线性可分的高维N>n,然后再从N维降维到一个低维度n’, 这里的维度之间满足n’<n<N。使用了核函数的主成分分析一般称之为核主成分分析KPCA,这就是KPCA的核心思想。

4.2 scikiit-learn接口使用

下面代码使用Scikit-learn的KernelPCA类以及用RBF内核执行KPCA

from sklearn.decomposition import KernelPCA
rbf_pca=KernelPCA(n_components=2,kernel="rbf",gamma=0.04)
X_reduce=rbf_pca.fit_transform(x)
X_reduce

五.LLE降维

5.1 简介

局部线性嵌入(LLE)是另一种强大的非线性降维(KPCA也是非线性降维技术)技术,它是一种流形学习技术,LLE在流形建模方面是做的非常好的,不像PCA那样依赖于投影。LLE的工作原理是首先测量每个训练实例如何与其最近的邻居线性关系,然后寻找最好地保留这些局部关系的训练集低维表示。回忆一下流形学习的原理:我们可以假设某些高维数据,例如图像,本身是由某些低维分布产生的。那么,我们就可以通过流形学习的手段,将数据从高维降低到低维,从而更好地把握数据的本质,而在LLE中寻找的线性关系就是所谓低维在高维的局部体现,而我们可以使用这种关系将高维映射到低维。

5.2 Scikit-learn中使用

scikit-learn中使用LocallyLinearEmbedding类来进行降维(这种降维就是我们2.3中介绍的展开瑞士卷的过程)

from sklearn.manifold import LocallyLinearEmbedding
lle=LocallyLinearEmbedding(n_components=2,n_neighbors=10)#n_neighbors就是我们要求线性关系的邻居实例的数量
X_reduce=lle.fit_transform(x)
X_reduce

5.3 LLE的工作原理

下面将一步步介绍LEE的工作原理

  1. 首先LLE对每个训练实例 x i x_i xi,算法会识别出最近的邻居,这个和knn算法找邻居的原理是一样的,所以可以使用knn算法来找到邻居
  2. ,LLE会尝试将 x i x_i xi重构为这些邻居的线性函数,即找到权重系数 w i , j ,使得 x i w_i,j,使得x_i wi,j,使得xi ∑ j = 1 m w i , j x i \\sum_j=1^m w_i,jx_i j=1mwi,jxi之间的距离尽可能小(线性回归拟合问题),W是权重矩阵

W ^ = a r g m i n ∑ i = 1 m ( x i − ∑ j = 1 m w i , j x j ) 2 \\hat W=argmin\\sum_i=1^m(x_i-\\sum_j=1^m w_i,jx_j)^2 W^=argmini=1m(xij=1mwi,jxj)2
满足 w i , j , x j 不属于 x i 的邻居 ∑ j = 1 m w i , j = 1 , 其中 i = 1 , 2 , 3 , . . . . , m 满足 \\begincases w_i,j, & x_j不属于x_i的邻居 \\\\ \\sum_j=1^m w_i,j=1, & 其中i=1,2,3,....,m \\endcases 满足wi,j,j=1mwi,j=1,xj不属于xi的邻居其中i=1,2,3,....,m

  1. 什么求出权重矩阵后我们已经在高维空间找到了实例的局部线性关系,现在就需要将训练实例映射到低维空间,同时尽可能保留这些局部关系到低维。如何保证这个约束条件,我们可以让d维度空间中 x i x_i xi的图像与关系 ∑ j = 1 m w i , j x i \\sum_j=1^m w_i,jx_i j=1mwi,jxi的距离同样保持最小,注意这里的 ∑ j = 1 m w i , j x i \\sum_j=1^m w_i,jx_i j=1以上是关于机器学习-降维简介的主要内容,如果未能解决你的问题,请参考以下文章

    机器学习-降维简介

    机器学习实战—降维

    机器学习/人工智能的笔试面试题目——PCA降维相关问题总结

    ☀️机器学习入门☀️ PCA 和 LDA 降维算法 | 附加小练习(文末送书)

    人工智能深度学习机器学习常见面试题261~280

    机器学习及与智能数据处理之降维算法PCA及其应用手写识别自定义数据集