如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目

Posted

技术标签:

【中文标题】如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目【英文标题】:How to see top n entries of term-document matrix after tfidf in scikit-learn 【发布时间】:2014-10-02 18:15:09 【问题描述】:

我是 scikit-learn 的新手,我使用 TfidfVectorizer 在一组文档中查找术语的 tfidf 值。我使用以下代码来获得相同的结果。

vectorizer = TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase=True)
X = vectorizer.fit_transform(lectures)

现在如果我打印 X,我可以看到矩阵中的所有条目,但是如何根据 tfidf 分数找到前 n 个条目。除此之外,还有什么方法可以帮助我根据每个 ngram 的 tfidf 分数找到前 n 个条目,即 unigram、bigram、trigram 等中的前 n 个条目?

【问题讨论】:

【参考方案1】:

从 0.15 版开始,TfidfVectorizer 学习到的特征的全局术语权重可以通过属性idf_ 访问,该属性将返回一个长度等于特征维度的数组。按此权重对特征进行排序以获得权重最高的特征:

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

lectures = ["this is some food", "this is some drink"]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(lectures)
indices = np.argsort(vectorizer.idf_)[::-1]
features = vectorizer.get_feature_names()
top_n = 2
top_features = [features[i] for i in indices[:top_n]]
print top_features

输出:

[u'food', u'drink']

ngram 获取 top features 的第二个问题可以使用相同的想法来完成,但需要一些额外的步骤将特征分成不同的组:

from sklearn.feature_extraction.text import TfidfVectorizer
from collections import defaultdict

lectures = ["this is some food", "this is some drink"]
vectorizer = TfidfVectorizer(ngram_range=(1,2))
X = vectorizer.fit_transform(lectures)
features_by_gram = defaultdict(list)
for f, w in zip(vectorizer.get_feature_names(), vectorizer.idf_):
    features_by_gram[len(f.split(' '))].append((f, w))
top_n = 2
for gram, features in features_by_gram.iteritems():
    top_features = sorted(features, key=lambda x: x[1], reverse=True)[:top_n]
    top_features = [f[0] for f in top_features]
    print '-gram top:'.format(gram), top_features

输出:

1-gram top: [u'drink', u'food']
2-gram top: [u'some drink', u'some food']

【讨论】:

我如何在讲座中获得每个文档的前 k 个 ngram,而不是整体前 k 个元素 是否可以获得特定文档的前 n 个特征? 如何将它与 countvectorizer 一起使用?我想获得矩阵中的前 5 个单词 这似乎不是按 TF-IDF 而是按字母顺序排序的。 这个答案不完整。他想过滤要编码的文档,并且只包含 TF-IDF 分数的前 X 个 n-gram。

以上是关于如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目的主要内容,如果未能解决你的问题,请参考以下文章

将 scikit-learn TfIdf 与 gensim LDA 一起使用

小批量的 Scikit-learn tfidf 矢量化器?

如何使用 scikit-learn 对文本对进行分类?

如何标准化 scikit-learn 中的 TF*IDF 或计数?

使用 scikit-learn 进行文本分类:如何从 pickle 模型中获取新文档的表示

如何使用 scikit-learn 组合具有不同维度输出的特征