使用方差阈值过滤(VarianceThreshold)进行特征选择删除方差低于某一阈值的特征详解及实战

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用方差阈值过滤(VarianceThreshold)进行特征选择删除方差低于某一阈值的特征详解及实战相关的知识,希望对你有一定的参考价值。

使用方差阈值过滤(VarianceThreshold)进行特征选择、删除方差低于某一阈值的特征、详解及实战

方差阈值(VarianceThreshold)法是一种过滤特征选择法。

 

我们有一组数值特性,希望删除那些具有低方差的特征(因为、他们可能包含很少信息)。选择一个方差高于给定阈值的特征子集:

方差阈值是手动选择的,所以我们必须用自己的判断来选择一个好的阈值、如果没有太大的把握还是把阈值设置的小一点为妙。

不同数据尺度、或者单位的数据可能对应的方差尺度也不一样,在设置阈值的时候要慎重。

 

sklearn.feature_selection.VarianceThreshold 方差阈值法,用于特征选择,过滤器法的一种,去掉那些方差没有达到阈值的特征。默认情况下,删除零方差的特征

Feature selector that removes all low-variance features.

This feature selection algorithm looks only at the features (X), not the desired outputs (y), and can thus be used for unsupervised learning.

 

注意,如果你事先进行了归一化处理,那么方差法就没有意义了。

以上是关于使用方差阈值过滤(VarianceThreshold)进行特征选择删除方差低于某一阈值的特征详解及实战的主要内容,如果未能解决你的问题,请参考以下文章

特征工程之特征选择----方差过滤

机器学习--特征选择

特征工程之特征选择

特征工程之特征选择----卡方过滤

R语言使用car包的vif函数计算方差膨胀因子,并基于方差膨胀因子开方后和阈值的判断来确认模型特征(预测变量)之间是否存在多重共线性(Multicollinearity)

大津法(最大类间阈值法)