预测的类和相应的概率在 H2O 上是矛盾的

Posted

技术标签:

【中文标题】预测的类和相应的概率在 H2O 上是矛盾的【英文标题】:Predicted class and the corresponding probability is contradictory on H2O 【发布时间】:2019-02-18 07:06:30 【问题描述】:

我使用 H2O 应用了二元分类。我只是将我的设置分为 3 个,分别是训练、校准和测试。在训练和校准之后,我检查了测试集上的结果。这里对应的部分:

final_grid = H2OGridSearch(model=H2OGradientBoostingEstimator(model_id = 'contract_gbm2', 
                                    stopping_rounds = 5, stopping_tolerance = 1e-4, seed = 23,
                                    stopping_metric = "AUC",balance_classes = True,
                                    max_runtime_secs=300, calibrate_model=True, calibration_frame=valid,

                                    nfolds = 5),
                       hyper_params=hyper_params_gbm,search_criteria=search_criteria)

我注意到预测的类和给定的概率并不总是一致的。见下文:

正如所见,预测不是基于最高概率决定的?我错过了什么?

【问题讨论】:

【参考方案1】:

阈值是 max-F1,而不是 0.5。

当然,如果你不喜欢这个阈值,那么你可以将 p1 与你喜欢的任何阈值进行比较。

【讨论】:

啊,是的!感谢@TomKraljevic 的及时回答!事实上,在你回答之后,我注意到阈值设置为 0.1 以最大化 F1。

以上是关于预测的类和相应的概率在 H2O 上是矛盾的的主要内容,如果未能解决你的问题,请参考以下文章

R - H2O- 如何获得训练有素的模型预测/概率?

python 对于生成预测概率的模型,此脚本使用颜色编码类和assi绘制相应的descision线

R h2o.deeplearning 用分类模式获取概率

如何重现 H2o GBM 类概率计算

PySpark 和 MLLib:随机森林预测的类概率

RandomForestClassifier 获得前 N 个预测和相应的概率