H2O R 变量重要性截断列表

Posted

技术标签:

【中文标题】H2O R 变量重要性截断列表【英文标题】:H2O R Variable Importance Truncated List 【发布时间】:2017-09-20 13:38:01 【问题描述】:

我有一个包含 400 多个特征的数据集,我使用 GBM 在 R 上使用 H2O 进行估计。当我使用变量重要性函数 (h2o.varimp) 时,它只显示完整排名变量列表的头部和尾部。有没有办法显示整个列表?

【问题讨论】:

【参考方案1】:

(summary) 将显示从 h2o.varimp 中提取的所有统计信息。然后保存变量重要性表

mymodel <- summary(model)

write.table(mymodel, file = "mymodel.txt", sep = "\t", quote = FALSE, row.names = TRUE)

【讨论】:

谢谢。我很好奇,该命令是否还可以永久存储模型对象以在将来对新数据(H2O 格式)进行评分? @dj_ski_mask 查看h2o.saveModel()h2o.loadModel() 以获得二进制模型。这些是最容易使用的,但是对于生产模型,请查看 h2o.download_pojo()h2o.download_mojo()。 docs.h2o.ai/h2o/latest-stable/h2o-docs/pojo-quick-start.html【参考方案2】:

这并不特定于变量重要性,这正是 H2O 在 R 控制台中显示 H2O 帧的方式。如果要查看整个帧,可以将其转换为 R data.frame 然后打印。

df <- as.data.frame(h2o.varimp(model))
print(df)

【讨论】:

以上是关于H2O R 变量重要性截断列表的主要内容,如果未能解决你的问题,请参考以下文章

类似于 h2o 包中排列精度重要性的东西

h2o randomForest 变量重要性

h2o 随机森林中的排列重要性

R语言使用system.time函数统计多个函数运行的累加(累计)时间计算h2o包生成的多个算法模型进行特征重要度分析累计耗费的时间

R语言使用system.time函数统计多个函数运行的累加(累计)时间计算h2o包生成的多个算法模型进行特征重要度分析累计耗费的时间

R语言使用DALEX包的variable_importance函数对h2o包生成的多个算法模型进行特征重要度分析并可视化对比差异(feature importance)