在 GridSearch CV 之后进行预测时是不是遵循管道步骤

Posted

技术标签:

【中文标题】在 GridSearch CV 之后进行预测时是不是遵循管道步骤【英文标题】:Are the pipeline steps followed when Predicting after GridSearch CV在 GridSearch CV 之后进行预测时是否遵循管道步骤 【发布时间】:2021-02-16 00:51:26 【问题描述】:

我将 GridSearchCV 与包含标准化作为第一步的管道结合使用。我发现在使用 GridSearchCV 的 .predict 方法预测测试数据集时,结果与手动实现管道步骤时的结果不同。我在下面创建了我的脚本的简化版本,以显示发现的错误不同。为简单起见,搜索空间中每个参数仅包含 1 个值。

我知道这里的差异非常小。但是在我的原始代码中,这种差异要大得多。因此,我试图了解导致两种方法之间差异的原因

初始化数据

import random

import numpy as np
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import GridSearchCV, KFold
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR

random.seed(5)
np.random.seed(5)

x_train = np.random.rand(1000,4)
y_train = np.random.rand(1000,1)

x_test = np.random.rand(100,4)
y_test = np.random.rand(100,1)

C_space = 1
epsilon_space = 0.04
gamma_space = 0.001

实现管道

cv_folds = KFold(n_splits=5, shuffle=True)

steps = [
    ('scaler', StandardScaler()), 
    ('svr', SVR(kernel='rbf', gamma=gamma_space, C=C_space, epsilon=epsilon_space))
    ]
pipe = Pipeline(steps, verbose=0)

search_space = [
        'svr__gamma':[gamma_space],
        'svr__C':[C_space], 
        'svr__epsilon':[epsilon_space]
        ]

mod = GridSearchCV(pipe, search_space,
    scoring='neg_mean_absolute_error', cv=5, verbose=0, return_train_score=True, refit=True)
svr = mod.fit(x_train, y_train)
y_pred = svr.predict(x_test)

error = mean_absolute_error(y_pred, y_test)

手动执行步骤

scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled = scaler.fit_transform(x_test)

manual_svr = SVR(kernel='rbf', gamma=gamma_space, C=C_space,
    epsilon=epsilon_space).fit(x_train_scaled, y_train)

y_pred_manual = manual_svr.predict(x_test_scaled)

error_manual = mean_absolute_error(y_pred_manual, y_test)

结果是:

Pipeline error is: 0.23495746730222067
Manual error is: 0.23487379770774958

【问题讨论】:

【参考方案1】:

您正在将GridSearchCV 中的StandardScaler 拟合到训练数据,而您重新-将“手册”scaler 拟合到测试数据。与

scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled = scaler.fit_transform(x_test)

您正在覆盖适合训练数据的scaler! 这不是使用缩放器的方式。使缩放器适合训练数据,然后使用此缩放器标准化您的测试数据。

让我们将您的输出与它的外观进行比较。首先让我们提取适合GridSearchCV 的缩放器并用它标准化测试数据:

gscv_sclr = mod.best_estimator_.named_steps['scaler']
gscv_test_scld = gscv_sclr.transform(x_test)

如您所见,这不等于您手动标准化的测试数据:

np.allclose(gscv_test_scld, x_test_scaled)
# Out: False

现在让我们仅将“手动”标准化器与训练数据相匹配,并使用此标准化器转换您的测试数据:

scaler_new = StandardScaler()
x_train_scaled = scaler_new.fit_transform(x_train)
x_test_scaled_new = scaler_new.transform(x_test)

# and compare it to the gridsearchcv scaler:
np.allclose(gscv_test_scld, x_test_scaled_new)
# Out: True

相等! 现在使用这个正确标准化的测试集进行预测:

# this refitting is actually not needed. it is simply here for having separate models...
manual_svr_new = SVR(kernel='rbf', gamma=gamma_space, C=C_space,
    epsilon=epsilon_space).fit(x_train_scaled, y_train)

y_pred_manual_new = manual_svr_new.predict(x_test_scaled_new)

error_manual_new = mean_absolute_error(y_pred_manual_new, y_test)

# And test it:
error_manual_new == error
# Out: True

现在您已经获得了管道的结果。

【讨论】:

以上是关于在 GridSearch CV 之后进行预测时是不是遵循管道步骤的主要内容,如果未能解决你的问题,请参考以下文章

best_score_的gridsearch cv的AUC分数与gridsearch cv的最佳模型的auc_roc_score不同

什么是 Gridsearch.cv_results_ ,可以解释其中的所有内容,即 mean_test_score 等吗?

cv预测脚本

cv预测脚本

使用 Scikit-Learn 在 RegressorChain 上进行 GridSearch?

使用 GridSearch 时使用 Scikit-learn 的模型帮助