机器学习特征筛选:方差选择法VarianceThreshold
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习特征筛选:方差选择法VarianceThreshold相关的知识,希望对你有一定的参考价值。
机器学习特征筛选:方差选择法VarianceThreshold
方差是衡量一个变量的离散程度(即数据偏离平均值的程度大小);
变量的方差越大,我们就可以认为它的离散程度越大,也就是意味着这个变量对模型的贡献和作用
会更明显,因此要保留方差较大的变量,反之,要剔除掉无意义的特征。
# 方差选择法;
# 方差选择法
# 自己手写理论公式来实现功能
def VarianceThreshold(df, threshold=0.):
dfc = df.iloc[:, :4].copy()
print(\'>>>特征名:\\n\', dfc.columns.tolist())
# 1 求方差
var = np.sum(np.power(np.matrix(dfc.values)-np.matrix(dfc.mean()), 2), axis=0)/(dfc.shape[0]-1)
T = []
# 2 筛选大于阈值的特征
for index, v in enumerate(var.reshape(-1, 1)):
if v > threshold:
T.append(index)
dfc = dfc.iloc[:,
以上是关于机器学习特征筛选:方差选择法VarianceThreshold的主要内容,如果未能解决你的问题,请参考以下文章
[机器学习与scikit-learn-46]:特征工程-特征选择(降维)-3-初级过滤:方差过滤法
机器学习实战基础(十六):sklearn中的数据预处理和特征工程特征选择 之 Filter过滤法 总结