我在 k-fold cross_validation 中使用相同的 Tfidf 词汇吗

Posted 2023-03-12

技术标签:

【中文标题】我在 k-fold cross_validation 中使用相同的 Tfidf 词汇吗【英文标题】：Do I use the same Tfidf vocabulary in k-fold cross_validation 【发布时间】：2018-02-11 03:09:15 【问题描述】：

我正在基于TF-IDF向量空间模型进行文本分类。我只有不超过3000个样本。为了公平评估，我正在使用5折交叉验证来评估分类器。但让我感到困惑的是是否需要在每个折叠交叉验证中重建TF-IDF向量空间模型。即，我是否需要在每个折叠交叉验证中重建词汇表并重新计算词汇表中的IDF 值？

目前我正在基于 scikit-learn 工具包进行 TF-IDF 转换，并使用 SVM 训练我的分类器。我的方法如下：首先，我将手头的样本按3:1的比例进行分割，其中75%用于拟合TF-IDF向量空间模型的参数。这里的参数是大小词汇表和其中包含的术语，以及词汇表中每个术语的IDF 值。然后我将转换此TF-IDF SVM 中的其余部分并使用这些向量进行5折交叉验证（值得注意的是，我没有使用之前 75% 的样本进行转换）。

我的代码如下：

# train, test split, the train data is just for TfidfVectorizer() fit
x_train, x_test, y_train, y_test = train_test_split(data_x, data_y, train_size=0.75, random_state=0)
tfidf = TfidfVectorizer()
tfidf.fit(x_train)

# vectorizer test data for 5-fold cross-validation
x_test = tfidf.transform(x_test)

 scoring = ['accuracy']
 clf = SVC(kernel='linear')
 scores = cross_validate(clf, x_test, y_test, scoring=scoring, cv=5, return_train_score=False)
 print(scores)

我的困惑是我做TF-IDF变换和做5折交叉验证的方法是否正确，或者是否有必要使用训练数据重建TF-IDF向量模型空间，然后转换成TF-IDF向量训练数据和测试数据？如下：

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)
for train_index, test_index in skf.split(data_x, data_y):
    x_train, x_test = data_x[train_index], data_x[test_index]
    y_train, y_test = data_y[train_index], data_y[test_index]

    tfidf = TfidfVectorizer()
    x_train = tfidf.fit_transform(x_train)
    x_test = tfidf.transform(x_test)

    clf = SVC(kernel='linear')
    clf.fit(x_train, y_train)
    y_pred = clf.predict(x_test)
    score = accuracy_score(y_test, y_pred)
    print(score)

【问题讨论】：

是的。是的。 【参考方案1】：

您在构建TfidfVectorizer() 时采用的StratifiedKFold 方法是正确的方法，这样做可以确保仅根据训练数据集生成特征。

如果您考虑在整个数据集上构建TfidfVectorizer()，那么即使我们没有明确提供测试数据集，它也会将测试数据集泄漏到模型中。包含测试文档时，词汇量大小、词汇表中每个词的IDF值等参数会有很大差异。

更简单的方法是使用管道和 cross_validate。

用这个！

from sklearn.pipeline import make_pipeline
clf = make_pipeline(TfidfVectorizer(), svm.SVC(kernel='linear'))

scores = cross_validate(clf, data_x, data_y, scoring=['accuracy'], cv=5, return_train_score=False)
print(scores)

注意：单独对测试数据执行cross_validate 是没有用的。我们必须在[train + validation] 数据集上做。

【讨论】：

以上是关于我在 k-fold cross_validation 中使用相同的 Tfidf 词汇吗的主要内容，如果未能解决你的问题，请参考以下文章

如何在情感分析中添加混淆矩阵和k-fold 10折

K-Fold 如何防止模型中的过度拟合