sklearn:在 RandomizedSearchCV 中使用管道?

Posted

技术标签:

【中文标题】sklearn:在 RandomizedSearchCV 中使用管道?【英文标题】:sklearn: use Pipeline in a RandomizedSearchCV? 【发布时间】:2015-03-26 13:21:39 【问题描述】:

我希望能够在 sklearn 的 RandomizedSearchCV 构造中使用管道。但是现在我相信只支持估算器。这是我想做的一个例子:

import numpy as np

from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler    
from sklearn.pipeline import Pipeline

# get some data
iris = load_digits()
X, y = iris.data, iris.target

# specify parameters and distributions to sample from
param_dist = 'C': [1, 10, 100, 1000], 
          'gamma': [0.001, 0.0001], 
          'kernel': ['rbf', 'linear'],

# create pipeline with a scaler 
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)

# do search
search = RandomizedSearchCV(pipeline, 
param_distributions=param_dist, n_iter=50)
search.fit(X, y)

print search.grid_scores_

如果你只是这样运行,你会得到如下错误:

ValueError: Invalid parameter kernel for estimator Pipeline

在 sklearn 中有什么好的方法吗?

【问题讨论】:

【参考方案1】:

我认为this 是您所需要的(第 3 部分)。

pipeline.get_params().keys() -> 确保您的参数网格键与此返回的匹配。

【讨论】:

【参考方案2】:

RandomizedSearchCV,以及GridSearchCV支持管道(事实上,它们独立于它们的实现,管道被设计成等同于通常的分类器)。

如果您认为应该搜索哪些参数,那么问题的关键就很简单了。由于管道由许多对象(几个转换器 + 一个分类器)组成,因此可能希望为分类器和转换器找到最佳参数。因此,您需要以某种方式区分从何处获取/设置属性。

所以你需要做的是说你想找到一个值,比如说,不仅仅是一些抽象的gamma(管道根本没有),而是管道分类器的gamma,它在您的情况下被称为 rbf_svm (这也证明了对名称的需要)。这可以使用双下划线语法来实现,该语法在 sklearn 中广泛用于嵌套模型:

param_dist = 
          'rbf_svm__C': [1, 10, 100, 1000], 
          'rbf_svm__gamma': [0.001, 0.0001], 
          'rbf_svm__kernel': ['rbf', 'linear'],

【讨论】:

以上是关于sklearn:在 RandomizedSearchCV 中使用管道?的主要内容,如果未能解决你的问题,请参考以下文章

sklearn:在 RandomizedSearchCV 中使用管道?

sklearn的PCA

我们可以选择在 sklearn 中使用啥决策树算法吗?

在安卓设备中使用 sklearn

sklearn系列之 sklearn.svm.SVC详解

Sklearn库