机器学习特征筛选:相关系数法(correlation)
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习特征筛选:相关系数法(correlation)相关的知识,希望对你有一定的参考价值。
机器学习特征筛选:相关系数法(correlation)
通过计算特征与特征之间的相关系数的大小,可判定两两特征之间的相关程度。
取值区间在[-1, 1]之间,取值关系如下:
corr(x1,x2)相关系数值小于0表示负相关((这个变量下降,那个就会上升)),即x1与x2是互补特征
corr(x1,x2)相关系数值等于0表示无相关
corr(x1,x2)相关系数值大于0表示正相关,即x1与x2是替代特征
原理实现:取相关系数值的绝对值,然后把corr值大于90%~95%的两两特征中的某一个特征剔除。
如果两个特征是完全线性相关的,这个时候我们只需要保留其中一个即可。
因为第二个特征包含的信息完全被第一个特征所包含。
此时,如果两个特征同时都保留的话,模型的性能很大情况会出现下降的情况
# 手动相关系数法
# 相关系数--特征与特征
# 自己手写理论公式实现功能
d
以上是关于机器学习特征筛选:相关系数法(correlation)的主要内容,如果未能解决你的问题,请参考以下文章
机器学习特征筛选:方差选择法VarianceThreshold
机器学习实战基础(十七):sklearn中的数据预处理和特征工程特征选择 之 Embedded嵌入法