如何从 Scikit-Learn 的详细输出中估计 GridSearchCV 的进度?

Posted

技术标签:

【中文标题】如何从 Scikit-Learn 的详细输出中估计 GridSearchCV 的进度?【英文标题】:How to estimate the progress of a GridSearchCV from verbose output in Scikit-Learn? 【发布时间】:2017-09-09 23:14:04 【问题描述】:

现在我正在运行一个非常激进的网格搜索。我有n=135 samples,我正在使用自定义交叉验证训练/测试列表运行23 folds。我有我的verbose=2

以下是我跑的:

param_test = "loss":["deviance"],
           'learning_rate':[0.01, 0.025, 0.05, 0.075, 0.1, 0.15, 0.2],
           "min_samples_split": np.linspace(0.1, 0.5, 12),
           "min_samples_leaf": np.linspace(0.1, 0.5, 12),
           "max_depth":[3,5,8],
          "max_features":["log2","sqrt"],
          "min_impurity_split":[5e-6, 1e-7, 5e-7],
          "criterion": ["friedman_mse",  "mae"],
           "subsample":[0.5, 0.618, 0.8, 0.85, 0.9, 0.95, 1.0],
          "n_estimators":[10]

Mod_gsearch = GridSearchCV(estimator = GradientBoostingClassifier(),
                           param_grid = param_test, scoring="accuracy",n_jobs=32, iid=False, cv=cv_indices, verbose=2)

我查看了stdout 中的详细输出:

$head gridsearch.o8475533
Fitting 23 folds for each of 254016 candidates, totalling 5842368 fits

基于此,使用我的网格参数的交叉验证对似乎有 5842368 排列。

$ grep -c  "[CV]" gridsearch.o8475533
7047332 

到目前为止,似乎已经完成了大约 700 万次交叉验证,但这比 5842368 的总拟合次数还要多...

7047332/5842368 = 1.2062458236

然后当我查看stderr 文件时:

$ cat ./gridsearch.e8475533
[Parallel(n_jobs=32)]: Done 132 tasks      | elapsed:    1.2s
[Parallel(n_jobs=32)]: Done 538 tasks      | elapsed:    2.8s
[Parallel(n_jobs=32)]: Done 1104 tasks      | elapsed:    4.8s
[Parallel(n_jobs=32)]: Done 1834 tasks      | elapsed:    7.9s
[Parallel(n_jobs=32)]: Done 2724 tasks      | elapsed:   11.6s
...
[Parallel(n_jobs=32)]: Done 3396203 tasks      | elapsed: 250.2min
[Parallel(n_jobs=32)]: Done 3420769 tasks      | elapsed: 276.5min
[Parallel(n_jobs=32)]: Done 3447309 tasks      | elapsed: 279.3min
[Parallel(n_jobs=32)]: Done 3484240 tasks      | elapsed: 282.3min
[Parallel(n_jobs=32)]: Done 3523550 tasks      | elapsed: 285.3min

我的目标:

我怎样才能知道我的网格搜索的进度相对于它可能花费的总时间?

我的困惑:

stdout 中的[CV] 行、stdout 中的总匹配数和stderr 中的任务之间的关系是什么?

【问题讨论】:

【参考方案1】:

数学很简单,但乍一看有点误导:

    当每个任务启动时,日志机制会在stdout 中产生一个“[CV] ...”行,注意starting 的执行和任务之后ends - 另一行加上花费的时间用于特定任务(在行尾)。

    此外,在某些时间间隔内,日志记录机制会向stderr 写入一个进度条(或者如果您将verbose 设置为>50 到stdout),表明在总任务中完成的任务数量(适合)和当前花费的总时间,比如那个:

    [Parallel(n_jobs=32)]: Done 2724 tasks | elapsed: 11.6s

对于您的情况,您有 5842368 总匹配,即任务。

您计算了 7047332 of '[CV] ...' 这是 around 7047332/2 = 3523666 完成的任务,进度条显示 exactly 完成了多少任务 - 3523550(大约 - 因为有些任务可以开始,但不会结束计数时)。

【讨论】:

以上是关于如何从 Scikit-Learn 的详细输出中估计 GridSearchCV 的进度?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 scikit-learn 中使用 KDE(核密度估计)进行一维数组聚类?

如何在 scikit-learn 的随机森林的 graphviz-graph 中找到一个类?

如何克隆包括其数据的 scikit-learn 估计器?

如何使用 scikit-learn API 实现元估计器?

当最后一个估计器不是转换器时,如何使用 scikit-learn 管道进行转换?

Scikit-Learn KDE 中的 PDF 估计