在 Scikit-learn 中运行 predict_proba() 后如何保持行索引？

Posted 2023-03-12

技术标签:

【中文标题】在 Scikit-learn 中运行 predict_proba() 后如何保持行索引？【英文标题】：How to keep row index after running predict_proba() in Scikit-learn? 【发布时间】：2021-11-26 03:18:55 【问题描述】：

我创建了一个逻辑回归模型来预测活动的接受率，其中 0 = 不接受，1 = 接受。现在，我需要将三个特定的列放在一起：person_id、实际接受度score（1 或 0）以及 sklearn 的predict_proba() 的输出。

person_id 和它各自的实际接受度score 我都可以从测试集中得到，这样就解决了。但是，如果我想使用它们的行索引将来自predict_proba() 的输出与person_id 和score 合并，那么我就有问题了。这是因为predict_proba() 重置了索引。所以，我不能保证如果我将它与person_id 和接受score 连接起来，它们将匹配其各自的行。这些是我的问题：

有什么方法可以返回 predict_proba() 并保留 X_test 的原始行索引？下面是 X_test 集上 predict_proba() 的代码行。

df_proba = pd.DataFrame(model.predict_proba(X_test)[:,1], columns=['proba'])

尽管重置了索引，predict_proba() 是否仍保持行顺序？因此，我可以简单地按列 (axis=1) 连接？

【问题讨论】：

【参考方案1】：

predict_proba() 方法不打乱数据。应用上述方法后，将维护 X_test 的行索引。换句话说，预测的第一个条目对应于 X_test 的第一行。您可以简单地连接person_id、score 和prediction。

【讨论】：

以上是关于在 Scikit-learn 中运行 predict_proba() 后如何保持行索引？的主要内容，如果未能解决你的问题，请参考以下文章