在管道中运行 GridSearch 后提取 best_params

Posted

技术标签:

【中文标题】在管道中运行 GridSearch 后提取 best_params【英文标题】:Extract best_params after running GridSearch within a pipeline 【发布时间】:2018-09-24 12:51:51 【问题描述】:

因此,我以以下方式在集成管道中运行了一个非常彻底的 GridSearch,其中包含 10 倍交叉值-

pipeline_rf = Pipeline([
('standardize', MinMaxScaler()), 
('grid_search_lr', GridSearchCV(
    RandomForestClassifier(),
    param_grid='bootstrap': [True],
                 'max_depth': [50, 100, 150, 200],
                 'max_features': ['auto', 'sqrt'],
                 'min_samples_leaf': [1, 2, 4],
                 'min_samples_split': [2, 5, 10],
                 'n_estimators': [100, 200, 500, 1000, 1500],
    cv=10,
    n_jobs=-1,
    scoring='roc_auc',
    verbose=2,
    refit=True
    ))
])

pipeline_rf.fit(X_train, y_train)

我应该如何提取最佳参数集?

【问题讨论】:

如果答案有帮助,请接受 - 答案会占用受访者宝贵的时间... 【参考方案1】:

您首先需要从管道中获取gridSearchCV 对象,然后在其上调用best_params_。这可以通过以下方式完成:

pipeline_rf.named_steps['grid_search_lr'].best_params_

【讨论】:

以上是关于在管道中运行 GridSearch 后提取 best_params的主要内容,如果未能解决你的问题,请参考以下文章

在管道/gridSearch 中使用 TFI/DF 和 CountVectorizer

使用 Gridsearch 进行 RFE 排名

在 GridSearch CV 之后进行预测时是不是遵循管道步骤

使用带有管道和 GridSearch 的 cross_val_score 进行嵌套交叉验证

最佳模型的 GridSearch:保存和加载参数

如何在CDH中使用PySpark分布式运行GridSearch算法