GridSearchCV 打分参数：使用打分='f1' 或打分=无（默认使用准确度）给出相同的结果

Posted 2023-03-12

技术标签:

【中文标题】GridSearchCV 打分参数：使用打分=\'f1\' 或打分=无（默认使用准确度）给出相同的结果【英文标题】：GridSearchCV scoring parameter: using scoring='f1' or scoring=None (by default uses accuracy) gives the same resultGridSearchCV 打分参数：使用打分='f1' 或打分=无（默认使用准确度）给出相同的结果 【发布时间】：2015-12-29 15:30:46 【问题描述】：

我正在使用从“使用 scikit learn 掌握机器学习”一书中提取的示例。

它使用决策树来预测网页上的每个图像是否是广告或文章内容。然后可以使用级联样式表隐藏被分类为广告的图像。数据可从 Internet 广告数据集公开获得：http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements，其中包含 3,279 张图像的数据。

以下是完成分类任务的完整代码：

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.cross_validation import train_test_split
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
import sys,random

def main(argv):
    df = pd.read_csv('ad-dataset/ad.data', header=None)
    explanatory_variable_columns = set(df.columns.values)
    response_variable_column = df[len(df.columns.values)-1]


    explanatory_variable_columns.remove(len(df.columns.values)-1)
    y = [1 if e == 'ad.' else 0 for e in response_variable_column]
    X = df[list(explanatory_variable_columns)]

    X.replace(to_replace=' *\?', value=-1, regex=True, inplace=True)

    X_train, X_test, y_train, y_test = train_test_split(X, y,random_state=100000)

    pipeline = Pipeline([('clf',DecisionTreeClassifier(criterion='entropy',random_state=20000))])

    parameters = 
        'clf__max_depth': (150, 155, 160),
        'clf__min_samples_split': (1, 2, 3),
        'clf__min_samples_leaf': (1, 2, 3)
    

    grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1,verbose=1, scoring='f1')
    grid_search.fit(X_train, y_train)
    print 'Best score: %0.3f' % grid_search.best_score_
    print 'Best parameters set:'
    best_parameters = grid_search.best_estimator_.get_params()
    for param_name in sorted(parameters.keys()):
        print '\t%s: %r' % (param_name, best_parameters[param_name])

    predictions = grid_search.predict(X_test)
    print classification_report(y_test, predictions)


if __name__ == '__main__':
  main(sys.argv[1:])

在示例中的 GridSearchCV 中使用 scoring='f1' 的结果是：

使用 scoring=None（默认准确度衡量标准）的结果与使用 F1 分数相同：

如果我没记错的话，通过不同的评分函数优化参数搜索应该会产生不同的结果。下面的案例表明使用 scoring='precision' 会得到不同的结果。

使用 scoring='precision' 的结果与其他两种情况不同。 “召回”等也是如此：

为什么'F1'和None，通过默认精度，给出相同的结果？？

已编辑

我同意 F*** 和 Sebastian 的两个回答。问题应该是小的param_grid。但我只是想澄清一下，当我使用完全不同的（不是此处示例中的那个）高度不平衡的数据集 100:1（这应该会影响准确性）并使用 Logistic 回归时，问题就会激增。在这种情况下，“F1”和准确率也给出了相同的结果。

在这种情况下，我使用的 param_grid 如下：

parameters = "penalty": ("l1", "l2"),
    "C": (0.001, 0.01, 0.1, 1, 10, 100),
    "solver": ("newton-cg", "lbfgs", "liblinear"),
    "class_weight":[0:4],

估计参数选择也太小了。

【问题讨论】：

你使用的是什么版本的 sklearn？嗨@NBartley，我使用的 scikit-learn 版本是 0.16.1 将求解器拟合为超参数是相当多余的 【参考方案1】：

我不同意通过不同的评分函数优化参数搜索必然会产生不同的结果。如果您的数据集是平衡的（每个类中的样本数量大致相同），我希望通过准确性和 F1 选择模型会产生非常相似的结果。

另外，请记住 GridSearchCV 在离散网格上进行优化。也许使用更细的参数网格会产生您正在寻找的结果。

【讨论】：

谢谢@F*** 我在问题中添加了一些额外的信息。【参考方案2】：

我认为作者没有很好地选择这个例子。我可能在这里遗漏了一些东西，但min_samples_split=1 对我来说没有意义：它与设置min_samples_split=2 不一样，因为你不能拆分 1 个样本——本质上，这是浪费计算时间。

来自文档：min_samples_split：“拆分内部节点所需的最小样本数。”

顺便说一句。这是一个很小的网格，反正没有太多选择，这可以解释为什么accuracy 和f1 给你相同的参数组合，因此给你相同的评分表。

如上所述，数据集可能很平衡，这就是为什么 F1 和准确度分数可能更喜欢相同的参数组合。因此，使用 (a) F1 分数和 (b) 准确度进一步查看您的 GridSearch 结果，我得出结论，在这两种情况下，150 的深度效果最好。由于这是下边界，它会给你一个小小的暗示，即较低的“深度”值可能会更好。但是，我怀疑树在这个数据集上甚至没有深入到这个数据集上（你甚至可以在达到最大深度之前得到“纯”叶子）。

所以，让我们使用以下参数 grid 用更合理的值重复实验

parameters = 
    'clf__max_depth': list(range(2, 30)),
    'clf__min_samples_split': (2,),
    'clf__min_samples_leaf': (1,)

最佳 F1 分数的最佳“深度”似乎在 15 左右。

Best score: 0.878
Best parameters set:
    clf__max_depth: 15
    clf__min_samples_leaf: 1
    clf__min_samples_split: 2
             precision    recall  f1-score   support

          0       0.98      0.99      0.99       716
          1       0.92      0.89      0.91       104

avg / total       0.98      0.98      0.98       820

接下来，让我们尝试使用“准确度”（或None）作为我们的评分指标：

> Best score: 0.967
Best parameters set:
    clf__max_depth: 6
    clf__min_samples_leaf: 1
    clf__min_samples_split: 2
             precision    recall  f1-score   support

          0       0.98      0.99      0.98       716
          1       0.93      0.85      0.88       104

avg / total       0.97      0.97      0.97       820

如您所见，您现在得到不同的结果，如果使用“准确度”，“最佳”深度也不同。

【讨论】：

谢谢@Sebastian 我在问题中添加了一些额外的信息。【参考方案3】：

在不平衡的数据集上，使用 f1_score 评分器的“labels”参数仅使用您感兴趣的类的 f1 分数。或者考虑使用“sample_weight”。

【讨论】：

以上是关于GridSearchCV 打分参数：使用打分='f1' 或打分=无（默认使用准确度）给出相同的结果的主要内容，如果未能解决你的问题，请参考以下文章