python Tfidf更好

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python Tfidf更好相关的知识,希望对你有一定的参考价值。

from sklearn.feature_extraction.text import TfidfVectorizer

tvec = TfidfVectorizer(stop_words='english')
tvec.fit(data_train['data'])
tvecdata = tvec.transform(data_train['data'])

X_train  = pd.DataFrame(tvec.fit_transform(data_train['data']).todense(),columns=tvec.get_feature_names())

print(X_train.shape)
X_test = pd.DataFrame(tvec.transform(data_test['data']).todense(),columns=tvec.get_feature_names())
print(X_test.shape)

以上是关于python Tfidf更好的主要内容,如果未能解决你的问题,请参考以下文章

分类 LDA 与 TFIDF

TFIDF 的 Python ScikitLearn GridSearchCV 问题 - JobLibValueError?

计算tfidf,关键词抽取---python

保留 TFIDF 结果以使用 Scikit for Python 预测新内容

使用 Python 的 Apache Spark TFIDF

获取选定的特征名称 TFIDF Vectorizer