如何在 sklearn 中编写自定义估算器并对其使用交叉验证?
Posted
技术标签:
【中文标题】如何在 sklearn 中编写自定义估算器并对其使用交叉验证?【英文标题】:How to write a custom estimator in sklearn and use cross-validation on it? 【发布时间】:2013-12-18 06:54:37 【问题描述】:我想通过交叉验证检查一种新方法的预测误差。 我想知道我是否可以将我的方法传递给 sklearn 的交叉验证函数,以防万一。
我想要sklearn.cross_validation(cv=10).mymethod
之类的东西。
我还需要知道如何定义mymethod
是否应该是一个函数以及哪个输入元素和哪个输出
例如,我们可以将mymethod
视为最小二乘估计器的实现(当然不是 sklearn 中的)。
我找到了这个教程link,但对我来说不是很清楚。
在documentation 他们使用
>>> import numpy as np
>>> from sklearn import cross_validation
>>> from sklearn import datasets
>>> from sklearn import svm
>>> iris = datasets.load_iris()
>>> iris.data.shape, iris.target.shape
((150, 4), (150,))
>>> clf = svm.SVC(kernel='linear', C=1)
>>> scores = cross_validation.cross_val_score(
... clf, iris.data, iris.target, cv=5)
...
>>> scores
但问题是他们使用的估计器 clf
是通过 sklearn 中内置的函数获得的。我应该如何定义自己的估算器以便将其传递给cross_validation.cross_val_score
函数?
例如,假设一个简单的估计器使用线性模型 $y=x\beta$,其中 beta 估计为 X[1,:]+alpha,其中 alpha 是一个参数。我应该如何完成代码?
class my_estimator():
def fit(X,y):
beta=X[1,:]+alpha #where can I pass alpha to the function?
return beta
def scorer(estimator, X, y) #what should the scorer function compute?
return ?????
使用以下代码,我收到了一个错误:
class my_estimator():
def fit(X, y, **kwargs):
#alpha = kwargs['alpha']
beta=X[1,:]#+alpha
return beta
>>> cv=cross_validation.cross_val_score(my_estimator,x,y,scoring="mean_squared_error")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python27\lib\site-packages\scikit_learn-0.14.1-py2.7-win32.egg\sklearn\cross_validation.py", line 1152, in cross_val_score
for train, test in cv)
File "C:\Python27\lib\site-packages\scikit_learn-0.14.1-py2.7-win32.egg\sklearn\externals\joblib\parallel.py", line 516, in __call__
for function, args, kwargs in iterable:
File "C:\Python27\lib\site-packages\scikit_learn-0.14.1-py2.7-win32.egg\sklearn\cross_validation.py", line 1152, in <genexpr>
for train, test in cv)
File "C:\Python27\lib\site-packages\scikit_learn-0.14.1-py2.7-win32.egg\sklearn\base.py", line 43, in clone
% (repr(estimator), type(estimator)))
TypeError: Cannot clone object '<class __main__.my_estimator at 0x05ACACA8>' (type <type 'classobj'>): it does not seem to be a scikit-learn estimator a it does not implement a 'get_params' methods.
>>>
【问题讨论】:
这是一篇详细的博客文章,其中包含与交叉验证集成的自定义估算器示例ploomber.io/posts/sklearn-custom 【参考方案1】:答案也在sklearn的documentation。
你需要定义两件事:
实现 fit(X, y)
函数的估计器,X
是输入矩阵,y
是输出向量
一个记分器函数,或可调用对象,可用于:scorer(estimator, X, y)
并返回给定模型的分数
参考您的示例:首先,scorer
不应该是估算器的方法,它是一个不同的概念。只需创建一个可调用对象:
def scorer(estimator, X, y)
return ????? # compute whatever you want, it's up to you to define
# what does it mean that the given estimator is "good" or "bad"
或者甚至更简单的解决方案:您可以将字符串 'mean_squared_error'
或 'accuracy'
(完整列表在 this part of the documentation 中提供)传递给 cross_val_score
函数以使用预定义的记分器。
另一种可能是使用make_scorer
工厂函数。
至于第二件事,您可以通过cross_val_score
函数的fit_params
dict
参数将参数传递给您的模型(如文档中所述)。这些参数将被传递给fit
函数。
class my_estimator():
def fit(X, y, **kwargs):
alpha = kwargs['alpha']
beta=X[1,:]+alpha
return beta
在阅读了所有错误消息之后,这些错误消息可以清楚地说明缺少的内容,下面是一个简单的示例:
import numpy as np
from sklearn.cross_validation import cross_val_score
class RegularizedRegressor:
def __init__(self, l = 0.01):
self.l = l
def combine(self, inputs):
return sum([i*w for (i,w) in zip([1] + inputs, self.weights)])
def predict(self, X):
return [self.combine(x) for x in X]
def classify(self, inputs):
return sign(self.predict(inputs))
def fit(self, X, y, **kwargs):
self.l = kwargs['l']
X = np.matrix(X)
y = np.matrix(y)
W = (X.transpose() * X).getI() * X.transpose() * y
self.weights = [w[0] for w in W.tolist()]
def get_params(self, deep = False):
return 'l':self.l
X = np.matrix([[0, 0], [1, 0], [0, 1], [1, 1]])
y = np.matrix([0, 1, 1, 0]).transpose()
print cross_val_score(RegularizedRegressor(),
X,
y,
fit_params='l':0.1,
scoring = 'mean_squared_error')
【讨论】:
以上是关于如何在 sklearn 中编写自定义估算器并对其使用交叉验证?的主要内容,如果未能解决你的问题,请参考以下文章