机器学习特征筛选:相关系数法(correlation)

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习特征筛选:相关系数法(correlation)相关的知识,希望对你有一定的参考价值。

机器学习特征筛选:相关系数法(correlation)

通过计算特征与特征之间的相关系数的大小,可判定两两特征之间的相关程度。
取值区间在[-1, 1]之间,取值关系如下:
corr(x1,x2)相关系数值小于0表示负相关((这个变量下降,那个就会上升)),即x1与x2是互补特征
corr(x1,x2)相关系数值等于0表示无相关
corr(x1,x2)相关系数值大于0表示正相关,即x1与x2是替代特征
原理实现:取相关系数值的绝对值,然后把corr值大于90%~95%的两两特征中的某一个特征剔除。

如果两个特征是完全线性相关的,这个时候我们只需要保留其中一个即可。
因为第二个特征包含的信息完全被第一个特征所包含。
此时,如果两个特征同时都保留的话,模型的性能很大情况会出现下降的情况

# 手动相关系数法

# 相关系数--特征与特征
# 自己手写理论公式实现功能
d

以上是关于机器学习特征筛选:相关系数法(correlation)的主要内容,如果未能解决你的问题,请参考以下文章

机器学习如何进行特征选择,特征选择的方法?(面试回答)

机器学习中如何用筛选器检测冗余?

机器学习特征筛选:方差选择法VarianceThreshold

机器学习实战基础(十七):sklearn中的数据预处理和特征工程特征选择 之 Embedded嵌入法

机器学习实战基础(十七):sklearn中的数据预处理和特征工程特征选择 之 Embedded嵌入法

如何使用机器学习模型(或其特征系数)来解释该特征是不是与特定类别相关?