线性回归系数与决策树特征重要性之间的关系

Posted

技术标签:

【中文标题】线性回归系数与决策树特征重要性之间的关系【英文标题】:Relation between coefficients in linear regression and feature importance in decision trees 【发布时间】:2019-09-08 14:05:30 【问题描述】:

最近我有一个机器学习(ML)项目,它需要识别对目标/输出有很大影响的特征(输入、a1、a2、a3 ... an)。

我使用线性回归来获取特征的系数,并使用决策树算法(例如随机森林回归器)来获取重要特征(或特征重要性)。

我的理解是否正确,线性回归中系数较大的特征应该在决策树算法中的特征重要性列表中排名第一?

【问题讨论】:

【参考方案1】:

并非如此,如果您的输入特征未标准化,则对于具有相对较大均值/标准差的特征,您可能具有相对较大的系数。如果你的特征被标准化,那么是的,这可能是特征重要性的一个指标,但还有其他事情需要考虑。

您可以尝试一些 sklearn 的特征选择类,它们应该会自动为您执行此操作here。

【讨论】:

【参考方案2】:

您的问题的简短回答是“不”,不一定。考虑到我们不知道您的不同输入是什么,如果它们在相同的单位系统中,变化范围等。 我不确定您为什么将线性回归与决策树结合起来。但我只是假设你有一个工作模型,比如一个线性回归,它在测试集上提供了很好的准确性。根据您的要求,您可能需要根据获得的模型查看敏感性分析。我建议对“SALib”库和敏感性分析的主题进行一些阅读。

【讨论】:

两个答案都很好。我只能选择更好的。我选择 Ahmed Ragab 的答案。这是一个艰难的决定。

以上是关于线性回归系数与决策树特征重要性之间的关系的主要内容,如果未能解决你的问题,请参考以下文章

线性模型系数解读中的那些坑,以套索回归(LASSO)和岭回归(Ridege)为例

8种用Python实现线性回归的方法

线性相关|回归分析|

决策树与随机森林

决策树与随机森林

多元线性回归的模型可以是一元模型吗