sklearn PCA 不工作

Posted

技术标签:

【中文标题】sklearn PCA 不工作【英文标题】:sklearn PCA not working 【发布时间】:2015-09-27 00:33:07 【问题描述】:

我一直在玩 sklearn PCA,它的行为很奇怪。

from sklearn.decomposition import PCA
import numpy as np
identity = np.identity(10)
pca = PCA(n_components=10)
augmented_identity = pca.fit_transform(identity)
np.linalg.norm(identity - augmented_identity)

4.5997749080745738

请注意,我将维数设置为 10。范数不应该是 0 吗?

任何关于为什么不这样做的见解将不胜感激。

【问题讨论】:

【参考方案1】:

虽然 PCA 基于协方差矩阵计算正交分量,但 sklearn 中 PCA 的输入是数据矩阵,而不是协方差/相关矩阵。

import numpy as np
from sklearn.decomposition import PCA

# gaussian random variable, 10-dimension, identity cov mat
X = np.random.randn(100000, 10)



pca = PCA(n_components=10)
X_transformed = pca.fit_transform(X)

np.linalg.norm(np.cov(X.T) - np.cov(X_transformed.T))

Out[219]: 0.044691263454134933

【讨论】:

以上是关于sklearn PCA 不工作的主要内容,如果未能解决你的问题,请参考以下文章

sklearn.decomposition.PCA 的简单特征向量图

为啥 sklearn 和 numpy 不同意 PCA 的乘法分量?

带有 SkLearn 管道的 GridSearch 无法正常工作

为啥 sklearn 的训练/测试拆分加上 PCA 会使我的标签不正确?

sklearn pca降维

机器学习Sklearn库主成分分析PCA降维的运用实战