CountVectorizer MultinomialNB ValueError:维度不匹配

Posted

技术标签:

【中文标题】CountVectorizer MultinomialNB ValueError:维度不匹配【英文标题】:CountVectorizer MultinomialNB ValueError: dimension mismatch 【发布时间】:2018-01-14 13:07:33 【问题描述】:

我正在尝试让我的 MultinomialNB 工作。我在我的训练和测试集上使用了 CountVectorizer,当然两个 setz 中都有不同的词。所以我明白了,为什么会出错

ValueError: dimension mismatch

发生,但我不知道如何解决它。我尝试了CountVectorizer().transform 而不是CountVectorizer().fit_transform,正如其他帖子(SciPy and scikit-learn - ValueError: Dimension mismatch)中所建议的那样,但这只是给了我

NotFittedError: CountVectorizer - Vocabulary wasn't fitted.

如何正确使用 CountVectorizer?

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cross_validation import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
import sklearn.feature_extraction

df = data
y = df["meal_parent_category"]
X = df['name_cleaned']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
X_train = CountVectorizer().fit_transform(X_train)
X_test = CountVectorizer().fit_transform(X_test)
algo = MultinomialNB()
algo.fit(X_train,y_train)
y = algo.predict(X_test)
print(classification_report(y_test,y_pred))

【问题讨论】:

【参考方案1】:

好的,所以在问了这个问题之后,我想通了 :) 这是词汇等的解决方案:

df = train
y = df["meal_parent_category_cleaned"]
X = df['name_cleaned']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)
vectorizer_train = CountVectorizer()
X_train = vectorizer_train.fit_transform(X_train)
vectorizer_test = CountVectorizer(vocabulary=vectorizer_train.vocabulary_)
X_test = vectorizer_test.transform(X_test)
algo = MultinomialNB()
algo.fit(X_train,y_train)
y_pred = algo.predict(X_test)
print(classification_report(y_test,y_pred))

【讨论】:

你可以使用X_test=vectorizer_train.transform(X_test),而不是定义一个新的。 哦,我喜欢那个。谢谢你:)

以上是关于CountVectorizer MultinomialNB ValueError:维度不匹配的主要内容,如果未能解决你的问题,请参考以下文章

Spark CountVectorizer

sklearn CountVectorizer

Spark 机器学习 ---CountVectorizer

sklearn中CountVectorizer与TfidfVectorizer区别

CountVectorizer 删除只出现一次的特征

来自 CountVectorizer 的术语相对频率矩阵