sklearn StandardScaler 返回全零

Posted

技术标签:

【中文标题】sklearn StandardScaler 返回全零【英文标题】:sklearn StandardScaler returns all zeros 【发布时间】:2018-03-15 07:31:30 【问题描述】:

我从以前的模型中保存了一个 sklearn StandardScaler,并正在尝试将其应用于新数据

scaler = myOldStandardScaler
print("ORIG:", X)
print("CLASS:", X.__class__)
X = scaler.fit_transform(X)
print("SCALED:", X)

我有三个观察结果,每个观察结果都有 2000 个特征。如果我分别运行每个观察结果,我会得到一个全为零的输出。

ORIG: [[  3.19029839e-04   0.00000000e+00   1.90985485e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[ 0.  0.  0. ...,  0.  0.  0.]]

但是如果我将所有三个观察结果添加到一个数组中,我会得到我想要的结果

ORIG: [[  0.00000000e+00   8.69737728e-08   7.53361877e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]
[  9.49627142e-04   0.00000000e+00   0.00000000e+00 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]
[  3.19029839e-04   0.00000000e+00   1.90985485e-06 ...,   0.00000000e+00
0.00000000e+00   0.00000000e+00]]
CLASS: <class 'numpy.matrixlib.defmatrix.matrix'>
SCALED: [[-1.07174217  1.41421356  1.37153077 ...,  0.          0.          0.        ]
[ 1.33494964 -0.70710678 -0.98439142 ...,  0.          0.          0.        ]
[-0.26320747 -0.70710678 -0.38713935 ...,  0.          0.          0.        ]]

我看过这两个问题:

Sklearn's MinMaxScaler only returns zeros Unexpected StandardScaler fit_transform output

两者都没有可接受的答案。

我试过了:

从 (1,n) 重塑为 (n,1)(这会产生不正确的结果) 将数组转换为np.float32np.float64(仍为零) 创建一个数组的数组(同样,全为零) 创建np.matrix(同样,全为零)

我错过了什么? fit_transform 的输入是相同的类型,只是大小不同。

如何让 StandardScaler 处理单个观察结果?

【问题讨论】:

我也有同样的问题 :( 【参考方案1】:

当您尝试将 StandardScaler 对象的 fit_transform 方法应用于大小为 (1, n) 的数组时,您显然会得到全零,因为对于每个数组数,您从中减去该数的平均值,即等于数字并除以该数字的标准。如果要正确缩放数组,应将其转换为大小为 (n, 1) 的数组。你可以这样做:

import numpy as np

X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.fit_transform(X[:, np.newaxis])

在这种情况下,您可以通过其功能为一个对象获得标准缩放,这不是您要寻找的。 如果您想通过 3 个对象的一个​​特征进行缩放,您应该传递给 fit_transform 大小为 (3, 1) 的方法数组,其中某个特征的值对应于每个对象。

X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.fit_transform(X[:, np.newaxis]) # you should get
# array([[-1.07174217], [1.33494964], [-0.26320747]]) you're looking for

如果您想使用已安装的 StandardScaler 对象,则不应使用 fit_transform 方法,因为它会使用新数据重新调整对象。 StandardScaler 具有 transform 方法,可用于单次观察:

X = np.array([1, -4, 5, 6, -8, 5]) # here should be your X in np.array format
X_transformed = scaler.transform(X.reshape(1, -1))

【讨论】:

【参考方案2】:

我遇到了同样的问题。对于大小为 (1, n) 的数组问题的另一种(更简单)解决方案是将矩阵转置,其大小为 (n, 1)。

X = np.array([0.00000000e+00, 9.49627142e-04, 3.19029839e-04])
X_transformed = scaler.transform(X.T)

【讨论】:

以上是关于sklearn StandardScaler 返回全零的主要内容,如果未能解决你的问题,请参考以下文章

[sklearn][standardscaler] 我可以反转模型输出的标准缩放器吗?

sklearn 笔记:数据归一化(StandardScaler)

sklearn.preprocessing.StandardScaler数据标准化

意外的结果sklearn StandardScaler

用于 R 的可训练 sklearn StandardScaler

sklearn StandardScaler 似乎无法正常工作