特征降维-PCA的数学原理
Posted 弘一
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了特征降维-PCA的数学原理相关的知识,希望对你有一定的参考价值。
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。
数据的向量表示及降维问题
一般情况下,在数据挖掘和机器学习中,数据被表示为向量。例如某个淘宝店2012年全年的流量及交易情况可以看成一组记录的集合,其中每一天的数据是一条记录,格式如下:
(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)
$((500,240,25,13,2312.15)^\mathsf{T})
其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大多是度量值,因此如果我们忽略日期这个字段后,我们得到一组记录,每条记录可以被表示为一个五维向量。
参考 http://blog.codinglabs.org/articles/pca-tutorial.html
以上是关于特征降维-PCA的数学原理的主要内容,如果未能解决你的问题,请参考以下文章