使用方差阈值过滤(VarianceThreshold)进行特征选择删除方差低于某一阈值的特征详解及实战
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用方差阈值过滤(VarianceThreshold)进行特征选择删除方差低于某一阈值的特征详解及实战相关的知识,希望对你有一定的参考价值。
使用方差阈值过滤(VarianceThreshold)进行特征选择、删除方差低于某一阈值的特征、详解及实战
方差阈值(VarianceThreshold)法是一种过滤特征选择法。
我们有一组数值特性,希望删除那些具有低方差的特征(因为、他们可能包含很少信息)。选择一个方差高于给定阈值的特征子集:
方差阈值是手动选择的,所以我们必须用自己的判断来选择一个好的阈值、如果没有太大的把握还是把阈值设置的小一点为妙。
不同数据尺度、或者单位的数据可能对应的方差尺度也不一样,在设置阈值的时候要慎重。
sklearn.feature_selection.VarianceThreshold 方差阈值法,用于特征选择,过滤器法的一种,去掉那些方差没有达到阈值的特征。默认情况下,删除零方差的特征
Feature selector that removes all low-variance features.
This feature selection algorithm looks only at the features (X), not the desired outputs (y), and can thus be used for unsupervised learning.
注意,如果你事先进行了归一化处理,那么方差法就没有意义了。
以上是关于使用方差阈值过滤(VarianceThreshold)进行特征选择删除方差低于某一阈值的特征详解及实战的主要内容,如果未能解决你的问题,请参考以下文章
R语言使用car包的vif函数计算方差膨胀因子,并基于方差膨胀因子开方后和阈值的判断来确认模型特征(预测变量)之间是否存在多重共线性(Multicollinearity)