13机器学习实战之PCA

Posted xinmomoyan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了13机器学习实战之PCA相关的知识,希望对你有一定的参考价值。

降维技术

对数据进行降维有如下一系列的原因:

  1. 使得数据集更容易使用
  2. 降低很多算法的计算开销
  3. 去除噪音
  4. 使得结果易懂

 

在以下3种降维技术中, PCA的应用目前最为广泛,因此本章主要关注PCA。

 

    1. 主成分分析(Principal Component Analysis, PCA)
    • 通俗理解:就是找出一个最主要的特征,然后进行分析。
    • 在PCA中,数据集从原始坐标系转换为新的坐标系。新的坐标系选择由数据本身决定。第一个新轴选择数据中方差最大的方向。第二轴与第一轴正交,且具有最大方差的方向。对于原始数据中的所有特性,都要重复这个过程。我们会发现大多数方差都包含在前几个坐标轴中,因此,我们可以忽略其余的坐标轴,并减少数据的维数。
    • 例如: 考察一个人的智力情况,就直接看数学成绩就行(存在:数学、语文、英语成绩)
    1. 因子分析(Factor Analysis)
    • 通俗理解:将多个实测变量转换为少数几个综合指标。它反映一种降维的思想,通过降维将相关性高的变量聚在一起,从而减少需要分析的变量的数量,而减少问题分析的复杂性
    • 例如: 考察一个人的整体情况,就直接组合3样成绩(隐变量),看平均成绩就行(存在:数学、语文、英语成绩)
    • 应用的领域:社会科学、金融和其他领域
    • 在因子分析中,我们
      • 假设观察数据的成分中有一些观察不到的隐变量(latent variable)。
      • 假设观察数据是这些隐变量和某些噪音的线性组合。
      • 那么隐变量的数据可能比观察数据的数目少,也就说通过找到隐变量就可以实现数据的降维。
    1. 独立成分分析(Independ Component Analysis, ICA)
    • 通俗理解:ICA 认为观测信号是若干个独立信号的线性组合,ICA 要做的是一个解混过程。
    • 例如:我们去ktv唱歌,想辨别唱的是什么歌曲?ICA 是观察发现是原唱唱的一首歌【2个独立的声音(原唱/主唱)】。
    • ICA 是假设数据是从 N 个数据源混合组成的,这一点和因子分析有些类似,这些数据源之间在统计上是相互独立的,而在 PCA 中只假设数据是不 相关(线性关系)的。
    • 同因子分析一样,如果数据源的数目少于观察数据的数目,则可以实现降维

技术图片

技术图片

技术图片

技术图片

技术图片

 

技术图片

技术图片

技术图片

技术图片

技术图片

技术图片

 

技术图片

技术图片

 技术图片

技术图片

技术图片

技术图片

技术图片

 技术图片

 

 

 

 

 

 

 

 

 

 

 

以上是关于13机器学习实战之PCA的主要内容,如果未能解决你的问题,请参考以下文章

机器学习实战之PCA

机器学习实战基础(二十三):sklearn中的降维算法PCA和SVD PCA与SVD 之 PCA中的SVD

机器学习实战基础(二十三):sklearn中的降维算法PCA和SVD PCA与SVD 之 PCA中的SVD

机器学习实战—降维

机器学习Sklearn库主成分分析PCA降维的运用实战

机器学习实战 10-PCA