无监督学习——降维

Posted qkloveslife

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了无监督学习——降维相关的知识,希望对你有一定的参考价值。

为什么要降维?

  • 维数少可以使算法有更快的计算速度,减少机器内存占用等
  • 多个特征携带的“信息”有相同或类似的情况(冗余)
  • 用于数据可视化

如何降维?

简单的例子,对于二位数据

技术分享图片

可以找到一条线

技术分享图片

将所有的数据映射到这条线上

技术分享图片

然后用映射后的一维数据去代表二位数据

技术分享图片

三维降维到二维的例子,假设数据如下

技术分享图片

这时,表征一个数据要用三维向量(x1, x2, x3)。如果找到一个平面

技术分享图片

并将所有的数据投影到这个平面

技术分享图片

这样数据就变为二维,原来的数据就可以用二维数据(z1, z2)代替

技术分享图片

技术分享图片

 


数据可视化例子

现有如下数据(不同国家的50个不同指标(GDP, Per capita GDP 等))

技术分享图片

但是这些数据不能直观的感受它们之间的区别与联系,如果将数据降维到二维,并用这二维数据去表征50维数据

技术分享图片

可以将这二维数据画出来,虽然说不出这二维数据(z1, z2)分别代表什么意思,但是,将他们画出来后可以比较直观的看到谁和谁是相似的(距离近),谁和谁是差别较大的。

技术分享图片

 

以上是关于无监督学习——降维的主要内容,如果未能解决你的问题,请参考以下文章

无监督学习——降维

Python 机器学习及实践 Coding 无监督学习经典模型 数据聚类 and 特征降维

机器学习 sklearn 无监督学习 降维算法 PCA

机器学习 sklearn 无监督学习 降维算法 PCA

无监督学习:非线性降维

无监督学习小记(参考)