随机森林回归器的特征选择

Posted

技术标签:

【中文标题】随机森林回归器的特征选择【英文标题】:Feature Selection for Random Forest Regressor 【发布时间】:2018-06-17 17:07:35 【问题描述】:

我正在尝试从 sklearn 训练一个随机森林回归器。我要训练的特征有不同的类型,数字连续、数字分类、文本分类(姓名/国籍)、纬度和经度。

我想知道的是给定所有特征,我如何确定最有用的特征集来训练我的随机森林回归器?

【问题讨论】:

【参考方案1】:

首先,在数据上运行您的随机森林模型。

rf= RandomForestRegressor()
rf.fit(train_data,train_labels)

然后使用特征重要性属性了解特征的重要性,从中可以过滤掉特征。

print(rf.feature_importances_)

然后再次在选定的功能上运行您的模型。

您可以使用更多技术,例如相关性、pca 等。拥有领域知识还可以让您在构建模型时获得优势。

【讨论】:

应该是 rf.fit(train_data, train_labels),而不是测试数据。

以上是关于随机森林回归器的特征选择的主要内容,如果未能解决你的问题,请参考以下文章

为啥以两种不同方式应用随机森林分类器的特征选择结果不同

随机森林与Adaboost

R中回归森林的特征选择和预测精度

如何在回归树中计算特征重要性?

决策树与随机森林算法

逻辑回归特征选择