scikit-learn GridSearchCV best_score_ 是如何计算的?

Posted

技术标签:

【中文标题】scikit-learn GridSearchCV best_score_ 是如何计算的?【英文标题】:How is scikit-learn GridSearchCV best_score_ calculated? 【发布时间】:2014-07-28 13:39:12 【问题描述】:

我一直试图弄清楚 GridSearchCV 的 best_score_ 参数是如何计算的(或者换句话说,它是什么意思)。 documentation 说:

在遗漏数据上的 best_estimator 得分。

所以,我试着把它翻译成我理解的东西,并计算了实际“y”的 r2_score 和每个 kfold 的预测 y - 并得到了不同的结果(使用这段代码):

test_pred = np.zeros(y.shape) * np.nan 
for train_ind, test_ind in kfold:
    clf.best_estimator_.fit(X[train_ind, :], y[train_ind])
    test_pred[test_ind] = clf.best_estimator_.predict(X[test_ind])
r2_test = r2_score(y, test_pred)

我到处寻找对 best_score_ 更有意义的解释,但找不到任何东西。有人愿意解释一下吗?

谢谢

【问题讨论】:

通常是折叠的平均值。但是,如果您可以发布完整的代码,那就太好了,例如模拟数据。 【参考方案1】:

这是最佳估计器的平均交叉验证分数。让我们制作一些数据并修复交叉验证的数据划分。

>>> y = linspace(-5, 5, 200)
>>> X = (y + np.random.randn(200)).reshape(-1, 1)
>>> threefold = list(KFold(len(y)))

现在运行cross_val_scoreGridSearchCV,都使用这些固定折叠。

>>> cross_val_score(LinearRegression(), X, y, cv=threefold)
array([-0.86060164,  0.2035956 , -0.81309259])
>>> gs = GridSearchCV(LinearRegression(), , cv=threefold, verbose=3).fit(X, y) 
Fitting 3 folds for each of 1 candidates, totalling 3 fits
[CV]  ................................................................
[CV] ...................................... , score=-0.860602 -   0.0s
[Parallel(n_jobs=1)]: Done   1 jobs       | elapsed:    0.0s
[CV]  ................................................................
[CV] ....................................... , score=0.203596 -   0.0s
[CV]  ................................................................
[CV] ...................................... , score=-0.813093 -   0.0s
[Parallel(n_jobs=1)]: Done   3 out of   3 | elapsed:    0.0s finished

注意GridSearchCV 输出中的score=-0.860602score=0.203596score=-0.813093;正是cross_val_score 返回的值。

请注意,“平均值”实际上是折叠的宏观平均值。 iid 参数 GridSearchCV 可用于获取样本的微平均值。

【讨论】:

能否添加gs.best_score_cross_val_scores.mean() 的输出? 确实:>>> gs.best_score_ -0.41004566175481089 >>> cross_val_score(LinearRegression(), X, y, cv=threefold).mean() -0.41073841862279581 我希望进一步解释 cross_val_score - 它是每个 kfold 的 r2_score 吗? @TalKremerman 这是 estimator.score(X[test_ind], y[test_ind]) 返回的任何值,对于回归估计器,这就是 R²。

以上是关于scikit-learn GridSearchCV best_score_ 是如何计算的?的主要内容,如果未能解决你的问题,请参考以下文章

Scikit-learn 中的 GridSearchCV 输出问题

Scikit-Learn:GridSearchCV 的自定义损失函数

Scikit-learn 多输出分类器使用:GridSearchCV、Pipeline、OneVsRestClassifier、SGDClassifier

scikit-learn GridSearchCV 弃用警告

scikit-learn 中 LogisticRegression 上的 GridSearchCV

使用 GridSearchCV 调整 scikit-learn 的随机森林超参数