R语言基于逐步回归(Stepwise regression)进行特征筛选(feature selection)

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言基于逐步回归(Stepwise regression)进行特征筛选(feature selection)相关的知识,希望对你有一定的参考价值。

R语言基于逐步回归(Stepwise regression)进行特征筛选(feature selection)

对一个学习任务来说,给定属性集,有些属性很有用,另一些则可能没什么用。这里的属性即称为“特征”(feature)。对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelevant feature)。从给定的特征集合中选择出相关特征子集的过程,即“特征选择”(feature selection)
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。  根据特征选择的形式又可以将特征选择方法分为3种:Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

特征选择的目的
1.简化模型,使模型更易于理解:去除不相关的特征会降低学习任务的难度。并且可解释性能对模型效果的稳定性有更多的把握

以上是关于R语言基于逐步回归(Stepwise regression)进行特征筛选(feature selection)的主要内容,如果未能解决你的问题,请参考以下文章

R构建逐步回归模型(Stepwise Regression)

R语言之逐步回归

SAS学习89(方差分析anova过程相关分析和回归分析corr过程reg过程多元线性回归stepwise)

SAS学习89(方差分析anova过程相关分析和回归分析corr过程reg过程多元线性回归stepwise)

回归分析 R语言 -- 多元线性回归

R语言Logistic逐步回归模型案例:分析与冠心病有关的危险因素