scikit-learn 管道:对变压器参数进行网格搜索以生成数据
Posted
技术标签:
【中文标题】scikit-learn 管道:对变压器参数进行网格搜索以生成数据【英文标题】:scikit-learn pipeline: grid search over parameters of transformer to generate data 【发布时间】:2015-10-17 19:22:33 【问题描述】:我想使用 scikit-learn 管道的第一步来生成一个玩具数据集,以评估我的分析性能。我想出的一个简单易用的示例解决方案如下所示:
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.base import TransformerMixin
from sklearn import cluster
class FeatureGenerator(TransformerMixin):
def __init__(self, num_features=None):
self.num_features = num_features
def fit(self, X, y=None, **fit_params):
return self
def transform(self, X, **transform_params):
return np.array(
range(self.num_features*self.num_features)
).reshape(self.num_features,
self.num_features)
def get_params(self, deep=True):
return "num_features": self.num_features
def set_params(self, **parameters):
self.num_features = parameters["num_features"]
return self
这个变压器在行动将 e。 G。可以这样称呼:
pipeline = Pipeline([
('pick_features', FeatureGenerator(100)),
('kmeans', cluster.KMeans())
])
pipeline = pipeline.fit(None)
classes = pipeline.predict(None)
print classes
当我尝试在此管道上进行网格搜索时,这对我来说很棘手:
parameter_sets =
'pick_features__num_features' : [10,20,30],
'kmeans__n_clusters' : [2,3,4]
pipeline = Pipeline([
('pick_features', FeatureGenerator()),
('kmeans', cluster.KMeans())
])
g_search_estimator = GridSearchCV(pipeline, parameter_sets)
g_search_estimator.fit(None,None)
网格搜索需要样本和标签作为输入,不如管道那么健壮,它不会抱怨 None
作为输入参数:
TypeError: Expected sequence or array-like, got <type 'NoneType'>
这是有道理的,因为网格搜索需要将数据集划分为不同的 cv 分区。
除了上面的例子,我还有很多参数,可以在数据集生成步骤中调整。因此,我需要一个解决方案来将此步骤包含在我的参数选择交叉验证中。
问题:有没有办法从第一个转换器内部设置 GridSearch 的 X
s 和 y
s?或者使用多个不同数据集(最好是并行的)调用 GridSearch 的解决方案会是什么样子?或者有没有人尝试自定义GridSearchCV
或者可以指出一些关于这方面的阅读材料?
【问题讨论】:
【参考方案1】:您的代码非常干净,因此很高兴为您提供这个快速而肮脏的解决方案:
g_search_estimator.fit([1., 1., 1.],[1., 0., 0.])
g_search_estimator.best_params_
输出:
[tons of int64 to float64 conversion warnings]
'kmeans__n_clusters': 4, 'pick_features__num_features': 10
请注意,您需要 3 个样本,因为您正在进行(默认)3 折交叉验证。
你得到的错误是由于GridSearchCV
对象执行的检查而发生的,所以它发生在你的转换器有机会做任何事情之前。所以我会对你的第一个问题说“不”:
有没有办法从内部设置 GridSearch 的 Xs 和 ys 第一个变压器?
编辑: 我意识到这是不必要的混乱,以下三行是等效的: g_search_estimator.fit([1., 1., 1.], [1., 0., 0.]) g_search_estimator.fit([1., 1., 1.], 无) g_search_estimator.fit([1., 1., 1.])
抱歉在里面匆忙乱扔了y
s。
关于网格搜索如何计算不同网格点的分数的一些解释:当您将 scoring=None
传递给 GridSearchCV
构造函数时(这是默认设置,所以这就是您在此处所拥有的),它会向估算器询问分数功能。如果有这样的功能,它用于评分。对于KMeans
,默认评分函数本质上与到聚类中心的距离之和相反。
这是一个无监督的指标,所以这里不需要y
。
总结一下,您将永远能够:
从第一个转换器内部设置 GridSearch 的 X
只需将输入X
'转换'为完全不相关的东西,没有人会抱怨它。不过,您确实需要一些输入random_X
。
现在,如果您想使用受监督的指标(我从您的问题中有这种感觉),您还需要指定 y
。
一个简单的场景是您有一个固定的y
向量,并且您想尝试几个X
。然后你可以这样做:
g_search_estimator.fit(random_X, y, scoring=my_scoring_function)
它应该运行良好。如果你想搜索 y
的不同值,可能会有点棘手。
【讨论】:
这不是使用您传入的y
s 来为解决方案评分吗?
不,当你将 score=None(默认)传递给 GridSearchCV
时,如果有这样的函数,它会使用估计器的 score 函数。如果您尝试使用此 y
指定评分函数,您将在其执行中遇到错误。对于KMeans
,有一个“默认”评分功能,所以使用的是这个。请参阅 km = KMeans()
然后 km.score
方法。它是一个无监督的指标,本质上是(减去)到聚类中心的距离之和。你想使用监督指标吗?如果是这样,请在您的问题中添加一些详细信息。以上是关于scikit-learn 管道:对变压器参数进行网格搜索以生成数据的主要内容,如果未能解决你的问题,请参考以下文章
scikit-learn 转换器,根据用户提供的切割点对数据进行分类
Sklearn Pipeline:将参数传递给自定义变压器?
Scikit-learn 管道类型错误:zip 参数 #2 必须支持迭代