python 提取tf-idf向量。

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 提取tf-idf向量。相关的知识,希望对你有一定的参考价值。

text = ['This is a string', 'This is another string', 'TFIDF computation calculation', 'TfIDF is the product of TF and IDF']

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_df=1.0, min_df=1, stop_words='english', norm = None)

X = vectorizer.fit_transform(text)
X_vovab = vectorizer.get_feature_names()
# Out[1]: ['calculation', 'computation', 'idf', 'product', 'string', 'tf', 'tfidf']
X_mat = X.todense()
# Out[2]:
# matrix([[ 0.        ,  0.        ,  0.        ,  0.        ,  1.51082562,
#           0.        ,  0.        ],
#         [ 0.        ,  0.        ,  0.        ,  0.        ,  1.51082562,
#           0.        ,  0.        ],
#         [ 1.91629073,  1.91629073,  0.        ,  0.        ,  0.        ,
#           0.        ,  1.51082562],
#         [ 0.        ,  0.        ,  1.91629073,  1.91629073,  0.        ,
#           1.91629073,  1.51082562]])
X_idf = vectorizer.idf_
# Out[3]:
# array([ 1.91629073,  1.91629073,  1.91629073,  1.91629073,  1.51082562,
#         1.91629073,  1.51082562])

以上是关于python 提取tf-idf向量。的主要内容,如果未能解决你的问题,请参考以下文章

NLP-词向量:如何理解TF-IDF?

关键字提取算法TF-IDF和TextRank(python3)————实现TF-IDF并jieba中的TF-IDF对比,使用jieba中的实现TextRank

Tf-Idf vectorizer 分析来自行而不是单词的向量

如何标准化 SVM 的 tf-idf 向量?

使用不同的方法计算TF-IDF值

如何构建词空间向量和文本向量化