在消除低方差之前对数据进行归一化,会产生错误
Posted
技术标签:
【中文标题】在消除低方差之前对数据进行归一化,会产生错误【英文标题】:Normalize data before removing low variance, makes errors 【发布时间】:2020-07-24 07:39:34 【问题描述】:我正在使用 scikit-learn 函数 normalize
和 VarianceThreshold
测试 iris
数据集(可以从 sklearn.datasets
加载函数 load_iris()
)。
如果我使用 MinMaxScaler
然后运行 VarianceThreshold
- 似乎没有任何功能了。
缩放前:
Column: sepal length (cm) Mean: 5.843333333333334 var = 0.6811222222222223 var/mean: 0.11656398554858338
Column: sepal width (cm) Mean: 3.0573333333333337 var = 0.1887128888888889 var/mean: 0.06172466928332606
Column: petal length (cm) Mean: 3.7580000000000005 var = 3.0955026666666665 var/mean: 0.8237101295015078
Column: petal width (cm) Mean: 1.1993333333333336 var = 0.5771328888888888 var/mean: 0.48121141374837856
缩放后 (MinMaxScaler
)
Column: sepal length (cm) Mean: 0.42870370370370364 var = 0.052555727023319614 var/mean: 0.12259219262459005
Column: sepal width (cm) Mean: 0.44055555555555553 var = 0.03276265432098764 var/mean: 0.07436668067815606
Column: petal length (cm) Mean: 0.46745762711864397 var = 0.08892567269941587 var/mean: 0.19023258481745967
Column: petal width (cm) Mean: 0.4580555555555556 var = 0.10019668209876545 var/mean: 0.2187435145879658
我使用VarianceThreshold
作为:
from sklearn.feature_selection import VarianceThreshold
sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
如果我们想删除低方差的特征,我们是否应该缩放数据(例如,通过MinMaxScaler
)?
【问题讨论】:
【参考方案1】:缩放数据通常不会帮助您找到冗余特征。
通常,VarianceThreshold
用于删除方差为零的特征,即不提供任何信息的常量。代码VarianceThreshold(threshold=(.8 * (1 - .8)))
中的行会丢弃所有方差低于 0.16 的特征。在你的情况下,所有特征的方差都低于这个值(在MinMaxScaler
之后,最高方差是0.1
的花瓣宽度),所以你扔掉所有东西。我相信你的意思是留下贡献超过 80% 差异的特性,但这不是你的代码所做的。如果您在 MinMaxScaler
之前应用该行,那么您的所有功能都会通过。
为了移除低方差的特征,您首先需要定义该特定特征的合理阈值是多少。但在一般情况下,您不能为方差设置硬编码的任意阈值,因为对于某些特征,该值会太高而对于其他特征来说太低。例如,PCA 通常用作特征选择过程。一个执行 PCA 并且只取 K 个第一个特征向量,其中 K 的选择方式使得相应特征值的“能量”是(比如说)总数的 95%(甚至 80%)。因此,如果您有一个包含 50-100 个特征的数据集,您可以在不丢失太多信息的情况下将特征数量减少十倍。
当您应用StandardScaler
时,您的所有特征都将进行中心化和规范化,因此它们的均值为零,方差为 1(当然,常数除外)。 MinMaxScaler
默认情况下会将您的功能带入范围 [0..1]。问题不在于使用哪个缩放器,而是为什么要使用缩放器。一般情况下,除非需要,否则您不想丢弃功能。
对于大多数真实数据集来说,信息保存在方差中的假设并不正确,并且很多时候具有较低方差的特征与低信息特征不对应。由于您的最终目标不是减少特征数量,而是创建更好的分类算法,因此您不应该在中间目标上过分优化。
【讨论】:
【参考方案2】:基本上,低方差特征意味着缺乏信息的特征。也就是说,如果一个特征的方差接近于零,则接近于取一个常数值。但是,每个特征可能代表不同的数量,因此它的方差是不同的。
例如,将范围从 0 到 100 的 age
和范围从 0 到 5 的 number_of_childs
视为协变量。由于这两个变量取不同的值,它们会有不同的方差。现在,通过缩放功能将它们设置为相同的单位。这样,我们就可以在相同的尺度上比较他们的信息。
请注意,对于 iris 数据集,所有特征都设置为相同的比例(厘米),即
from sklearn.datasets import load_iris
data = load_iris()
print(data.features_names)
>>> ['sepal length (cm)',
'sepal width (cm)',
'petal length (cm)',
'petal width (cm)']
在这种情况下,最好的第一步是将数据居中。通过这样做,可以消除噪音。
import pandas as pd
X = pd.DataFrame(data['data'], columns=data.feature_names)
X = X - X.mean()
【讨论】:
通过使数据居中,您可以消除偏差(也就是平均值或常数分量),而不是“噪声”。通常会进行数据规范化,因为当数据在 [-1..1] 左右的范围内时,许多算法(例如 SVM)工作得更好。对于某些人来说,根本不需要决策树规范化。【参考方案3】:MinMaxScaler
使用以下公式:
X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_scaled = X_std * (max - min) + min
如果您检查方差阈值docs并查看方差公式,则可以等效地表示一组n个等可能值的方差,而无需直接参考均值,以所有点的平方偏差表示彼此:
让我们比较一个包含两列和三个变量的小例子:
a b
1 0
0 1
0 2
没有缩放我们有以下差异:
a: (0.5(1-0)^2+0.5(1-0)^2+ 0.5(0-1)^2 +0.5(0-0)^2 + 0.5(0-1)^2 + 0.5(0-1)^2 )/3 = (0.5+0.5+0.5+0.5)/3= 2/3 = 0.75
b: 6/3 = 2
在MinMaxScaler
之后我们会:
a b
1 0
0 0.5
0 1
所以方差:
a: 2/3
b: 2/3
因此,阈值为 0.8 时,两者都会在标准化后被踢出。
所以是的,当您在 variancethreshold 之前对数据进行标准化时,您总是会剔除更多的列,因为 minmaxscaler 的基本思想是标准化您的数据,这意味着您的数据变化会更小。
【讨论】:
这似乎很反直觉。要使用VarianceThreshold
,我们必须先对数据进行规范化。 StandardScaler()
会是更好的选择吗?
StandardScaler 将所有方差缩放为 1。这将使方差阈值无用。缩放时必须保持方差。以上是关于在消除低方差之前对数据进行归一化,会产生错误的主要内容,如果未能解决你的问题,请参考以下文章