pca(主成分分析)
Posted 广目天王
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pca(主成分分析)相关的知识,希望对你有一定的参考价值。
pca主成分分析:
可以把高纬度数据在损失最小的情况下转化为低维度数据。显然,PCA可以对数据进行压缩,可以在可控的失真范围内提高运算速度。
PCA主要参数:
n_components:这个参数可以帮我们指定希望PCA降维后的特征维度数目
whiten :判断是否进行白化,就是对降维后的数据的每个特征进行归一化
svd_solver:即指定奇异值分解SVD的方法
常用方法:
输出方差比:每个主成分占数据的百分比
随着你添加越来越多的主成分作为训练分类器的特征,你认为它的性能会更高还是更低?
更好。因为更多的特征可以使我们对数据更加了解,从而提高分类器的性能。
PCA注意:
- 压缩数据,主成份一般在90%,95%和99%几档,根据实际需要选取
- 加速模型建模,缩短时间(PCA处理后,建模,需要保留转换向量P,并用P处理预测数据)
- 可视化,如果前两个或三个数据可以表示90%以上的成分,那么可以进行可视化
- PCA处理数据之前需要确保每个列的均值为0(mean normalization),同时需要确保量纲相同(scaling),否则数值较大的几个变量会占据主要成分。
- 不要将PCA作为解决过拟合的方法,虽然使用PCA后,确实可以减少过拟合,但是原因可能是feature减少了。采用regulations缓解过拟合。
- 设计ML系统时,不要一开始就期望使用PCA,提高模型性能。只有当所有非PCA方法无法达到效果时,在使用PCA。PCA处理数据时没有考虑到y,会损失部分有价值信息
- pca的主成分分析出来后,应用于训练集和测试集。而不是多次进行主成分分析。
以上是关于pca(主成分分析)的主要内容,如果未能解决你的问题,请参考以下文章