将特征重要性从随机森林导出到 csv

Posted

技术标签:

【中文标题】将特征重要性从随机森林导出到 csv【英文标题】:exporting feature importance to csv from random forest 【发布时间】:2016-11-06 04:52:59 【问题描述】:

您好,我想创建一个包含 2 列的 .csv:随机森林模型的特征重要性和该特征的名称。并确保数值和变量名匹配正确

这是一个示例,但我无法正确导出到 .csv

test_features = test[["area","product", etc.]].values

# Create the target 
target = test["churn"].values

pred_forest = my_forest.predict(test_features)

# Print the score of the fitted random forest
print(my_forest.score(test_features, target))


importance = my_forest.feature_importances_


pd.DataFrame("IMP": importance, "features":test_features ).to_csv('forest_0407.csv',index=False)

【问题讨论】:

这是怎么失败的?这对我来说看起来有点可疑,因为您试图将特征重要性与特征 df 本身进行匹配,这是不正确的,因为特征重要性是列 我很困惑,因为我打印“重要性”我只能看到一个数组,但我不确定哪个功能匹配,因为我想检查名称和值。消息错误是这样的:异常:数据必须是一维的 试试这个功能test.columns.tolist() @shivsn 懒惰的打字员版本是list(df) 以获取列作为列表 @EdChum 很好,我不知道,谢谢。 【参考方案1】:

使用这个

x = list(zip(my_forest.feature_importances_,list of features you are using))
x = pandas.DataFrame(x,columns=["Importance","Feature_Name"])

【讨论】:

以上是关于将特征重要性从随机森林导出到 csv的主要内容,如果未能解决你的问题,请参考以下文章

随机森林如何评估特征重要性

如何从 xgboost 或随机森林中区分重要特征的方向?

利用随机森林对特征重要性进行评估

PySpark 和 MLLib:随机森林特征的重要性

R语言随机森林模型:计算随机森林模型的特征重要度(feature importance)并可视化特征重要度使用少数重要特征拟合随机森林模型(比较所有特征模型和重要特征模型在测试集上的表现差异)

随机森林进行特征重要性度量的详细说明