R语言基于Boruta进行机器学习特征筛选(Feature Selection)
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言基于Boruta进行机器学习特征筛选(Feature Selection)相关的知识,希望对你有一定的参考价值。
R语言基于Boruta进行机器学习特征筛选(Feature Selection)
对一个学习任务来说,给定属性集,有些属性很有用,另一些则可能没什么用。这里的属性即称为“特征”(feature)。对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelevant feature)。从给定的特征集合中选择出相关特征子集的过程,即“特征选择”(feature selection)
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。 根据特征选择的形式又可以将特征选择方法分为3种:Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。
特征选择的目的
1.简化模型,使模型更易于理解:去除不相关的特征会降低学习任务的难度。并且可解释性能对模型效果的稳定性有更多的把握
2.改善性能:节省存储和计算开销
以上是关于R语言基于Boruta进行机器学习特征筛选(Feature Selection)的主要内容,如果未能解决你的问题,请参考以下文章
R语言基于机器学习算法进行特征筛选(Feature Selection)
R语言基于LASSO进行特征筛选(feature selection)
R语言基于DALEX包进行特征筛选(feature selection)
R语言基于逐步回归(Stepwise regression)进行特征筛选(feature selection)
R语言基于线性回归(Linear Regression)进行特征筛选(feature selection)
R语言基于递归特征消除RFE(Recursive Feature Elimination)进行特征筛选(feature selection)