R语言基于线性回归(Linear Regression)进行特征筛选(feature selection)

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言基于线性回归(Linear Regression)进行特征筛选(feature selection)相关的知识,希望对你有一定的参考价值。

R语言基于线性回归(Linear Regression)进行特征筛选(feature selection)

对一个学习任务来说,给定属性集,有些属性很有用,另一些则可能没什么用。这里的属性即称为“特征”(feature)。对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelevant feature)。从给定的特征集合中选择出相关特征子集的过程,即“特征选择”(feature selection)


当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。  根据特征选择的形式又可以将特征选择方法分为3种:Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

特征选择的目的
1.简化模型,使模型更易于理解:去除不相关的特征会降低学习任务的难度。并且可解释性能对模型效果的稳定性有更多的把

以上是关于R语言基于线性回归(Linear Regression)进行特征筛选(feature selection)的主要内容,如果未能解决你的问题,请参考以下文章

R语言广义线性模型函数GLM广义线性模型(Generalized linear models)glm函数构建逻辑回归模型(Logistic regression)

R语言可视化包ggplot2绘制线性回归模型曲线实战( Linear Regression Line)

R语言使用lm函数拟合多元线性回归模型假定预测变量没有交互作用(Multiple linear regression)

R语言plotly可视化:使用plotly可视化简单线性回归模型的回归线(simple regression model linear regression plots)

R语言使用lm函数拟合多元线性回归模型假定预测变量之间有交互作用(Multiple linear regression with interactions)

R语言广义线性模型函数GLM广义线性模型(Generalized linear models)GLM函数的语法形式glm模型常用函数常用连接函数逻辑回归泊松回归系数解读过散度分析