在管道中的分类器之后使用度量
Posted
技术标签:
【中文标题】在管道中的分类器之后使用度量【英文标题】:Use a metric after a classifier in a Pipeline 【发布时间】:2017-10-02 21:10:54 【问题描述】:我继续调查管道。我的目标是仅使用管道执行机器学习的每个步骤。将我的管道与其他用例相适应会更加灵活和容易。所以我该怎么做:
第 1 步:填充 NaN 值 第 2 步:将分类值转换为数字 第 3 步:分类器 第 4 步:网格搜索 第 5 步:添加指标(失败)这是我的代码:
import pandas as pd
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.feature_selection import SelectKBest
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_score
class FillNa(BaseEstimator, TransformerMixin):
def transform(self, x, y=None):
non_numerics_columns = x.columns.difference(
x._get_numeric_data().columns)
for column in x.columns:
if column in non_numerics_columns:
x.loc[:, column] = x.loc[:, column].fillna(
df[column].value_counts().idxmax())
else:
x.loc[:, column] = x.loc[:, column].fillna(
x.loc[:, column].mean())
return x
def fit(self, x, y=None):
return self
class CategoricalToNumerical(BaseEstimator, TransformerMixin):
def transform(self, x, y=None):
non_numerics_columns = x.columns.difference(
x._get_numeric_data().columns)
le = LabelEncoder()
for column in non_numerics_columns:
x.loc[:, column] = x.loc[:, column].fillna(
x.loc[:, column].value_counts().idxmax())
le.fit(x.loc[:, column])
x.loc[:, column] = le.transform(x.loc[:, column]).astype(int)
return x
def fit(self, x, y=None):
return self
class Perf(BaseEstimator, TransformerMixin):
def fit(self, clf, x, y, perf="all"):
"""Only for classifier model.
Return AUC, ROC, Confusion Matrix and F1 score from a classifier and df
You can put a list of eval instead a string for eval paramater.
Example: eval=['all', 'auc', 'roc', 'cm', 'f1'] will return these 4
evals.
"""
evals =
y_pred_proba = clf.predict_proba(x)[:, 1]
y_pred = clf.predict(x)
perf_list = perf.split(',')
if ("all" or "roc") in perf.split(','):
fpr, tpr, _ = roc_curve(y, y_pred_proba)
roc_auc = round(auc(fpr, tpr), 3)
plt.style.use('bmh')
plt.figure(figsize=(12, 9))
plt.title('ROC Curve')
plt.plot(fpr, tpr, 'b',
label='AUC = '.format(roc_auc))
plt.legend(loc='lower right', borderpad=1, labelspacing=1,
prop="size": 12, facecolor='white')
plt.plot([0, 1], [0, 1], 'r--')
plt.xlim([-0.1, 1.])
plt.ylim([-0.1, 1.])
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.show()
if "all" in perf_list or "auc" in perf_list:
fpr, tpr, _ = roc_curve(y, y_pred_proba)
evals['auc'] = auc(fpr, tpr)
if "all" in perf_list or "cm" in perf_list:
evals['cm'] = confusion_matrix(y, y_pred)
if "all" in perf_list or "f1" in perf_list:
evals['f1'] = f1_score(y, y_pred)
return evals
path = '~/proj/akd-doc/notebooks/data/'
df = pd.read_csv(path + 'titanic_tuto.csv', sep=';')
y = df.pop('Survival-Status').replace(to_replace=['dead', 'alive'],
value=[0., 1.])
X = df.copy()
X_train, X_test, y_train, y_test = train_test_split(
X.copy(), y.copy(), test_size=0.2, random_state=42)
percent = 0.50
nb_features = round(percent * df.shape[1]) + 1
clf = RandomForestClassifier()
pipeline = Pipeline([('fillna', FillNa()),
('categorical_to_numerical', CategoricalToNumerical()),
('features_selection', SelectKBest(k=nb_features)),
('random_forest', clf),
('perf', Perf())])
params = dict(random_forest__max_depth=list(range(8, 12)),
random_forest__n_estimators=list(range(30, 110, 10)))
cv = GridSearchCV(pipeline, param_grid=params)
cv.fit(X_train, y_train)
我知道打印 roc 曲线并不理想,但这不是现在的问题。
所以,当我执行这段代码时,我有:
TypeError: If no scoring is specified, the estimator passed should have a 'score' method. The estimator Pipeline(steps=[('fillna', FillNa()), ('categorical_to_numerical', CategoricalToNumerical()), ('features_selection', SelectKBest(k=10, score_func=<function f_classif at 0x7f4ed4c3eae8>)), ('random_forest', RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
max_depth=None,...=1, oob_score=False, random_state=None,
verbose=0, warm_start=False)), ('perf', Perf())]) does not.
我对所有想法都感兴趣...
【问题讨论】:
【参考方案1】:如错误所示,您需要在 GridSearchCV 中指定打分参数。
使用
GridSearchCV(pipeline, param_grid=params, scoring = 'accuracy')
编辑(基于 cmets 中的问题):
如果您需要整个 X_train 和 y_train(而不是 GridSearchCV 的所有拆分)的 roc、auc 曲线和 f1,最好将 Perf 类排除在管道之外。
pipeline = Pipeline([('fillna', FillNa()),
('categorical_to_numerical', CategoricalToNumerical()),
('features_selection', SelectKBest(k=nb_features)),
('random_forest', clf)])
#Fit the data in the pipeline
pipeline.fit(X_train, y_train)
performance_meas = Perf()
performance_meas.fit(pipeline, X_train, y_train)
【讨论】:
太棒了!但是不可能以这种方式绘制我的 roc 曲线?!并且有可能在同一管道中获得准确率和 f1 分数? 是的,有可能。你没有得到结果吗?在进一步检查您的代码后,即使解决了这个错误,它似乎也会给出另一个错误。 如果我删除我的Class Perf
并调用cv = GridSearchCV(pipeline, param_grid=params, scoring = 'accuracy') cv.fit(X_train, y_train)
我没有任何错误。我正在尝试找到一种方法来获得 roc、auc、f1_score 与相同的运行
我不明白。您可以获得任何分数指标(f1、准确率、召回率),但问题是您想在 GridSearchCV 中使用什么?
请看,当在管道中使用 Perf 以及 GridSearchCV 时,这意味着您想要 GridSearchCV 将对数据进行的所有拆分的分数。如果您想访问所有数据的所有这些分数,最好将其排除在管道之外。你明白我的意思了吗?以上是关于在管道中的分类器之后使用度量的主要内容,如果未能解决你的问题,请参考以下文章
如何为多标签分类器/一对休息分类器腌制 sklearn 管道?
在 CalibratedClassifierCV 内使用管道分类器
如何在 Python 中使用 OpenCV 3.0 中的 HOG 功能训练 SVM 分类器?