H2O R 变量重要性截断列表
Posted
技术标签:
【中文标题】H2O R 变量重要性截断列表【英文标题】:H2O R Variable Importance Truncated List 【发布时间】:2017-09-20 13:38:01 【问题描述】:我有一个包含 400 多个特征的数据集,我使用 GBM 在 R 上使用 H2O 进行估计。当我使用变量重要性函数 (h2o.varimp) 时,它只显示完整排名变量列表的头部和尾部。有没有办法显示整个列表?
【问题讨论】:
【参考方案1】:(summary) 将显示从 h2o.varimp 中提取的所有统计信息。然后保存变量重要性表
mymodel <- summary(model)
write.table(mymodel, file = "mymodel.txt", sep = "\t", quote = FALSE, row.names = TRUE)
【讨论】:
谢谢。我很好奇,该命令是否还可以永久存储模型对象以在将来对新数据(H2O 格式)进行评分? @dj_ski_mask 查看h2o.saveModel()
和h2o.loadModel()
以获得二进制模型。这些是最容易使用的,但是对于生产模型,请查看 h2o.download_pojo()
或 h2o.download_mojo()
。 docs.h2o.ai/h2o/latest-stable/h2o-docs/pojo-quick-start.html【参考方案2】:
这并不特定于变量重要性,这正是 H2O 在 R 控制台中显示 H2O 帧的方式。如果要查看整个帧,可以将其转换为 R data.frame 然后打印。
df <- as.data.frame(h2o.varimp(model))
print(df)
【讨论】:
以上是关于H2O R 变量重要性截断列表的主要内容,如果未能解决你的问题,请参考以下文章
R语言使用system.time函数统计多个函数运行的累加(累计)时间计算h2o包生成的多个算法模型进行特征重要度分析累计耗费的时间
R语言使用system.time函数统计多个函数运行的累加(累计)时间计算h2o包生成的多个算法模型进行特征重要度分析累计耗费的时间
R语言使用DALEX包的variable_importance函数对h2o包生成的多个算法模型进行特征重要度分析并可视化对比差异(feature importance)