sklearn: TfidfVectorizer 中文处理及一些使用参数

Posted caiyishuai

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sklearn: TfidfVectorizer 中文处理及一些使用参数相关的知识,希望对你有一定的参考价值。

TfidfVectorizer可以把原始文本转化为tf-idf的特征矩阵,从而为后续的文本相似度计算,主题模型,文本搜索排序等一系列应用奠定基础。基本应用如:

#coding=utf-8
from sklearn.feature_extraction.text import TfidfVectorizer
document = ["I have a pen.",
            "I have an apple."]
tfidf_model = TfidfVectorizer().fit(document)
sparse_result = tfidf_model.transform(document)     # 得到tf-idf矩阵,稀疏矩阵表示法
print(sparse_result)
# (0, 3)    0.814802474667
# (0, 2)    0.579738671538
# (1, 2)    0.449436416524
# (1, 1)    0.631667201738
# (1, 0)    0.631667201738
print(sparse_result.todense())                     # 转化为更直观的一般矩阵
# [[ 0.          0.          0.57973867  0.81480247]
#  [ 0.6316672   0.6316672   0.44943642  0.        ]]
print(tfidf_model.vocabulary_)                      # 词语与列的对应关系
# {‘have‘: 2, ‘pen‘: 3, ‘an‘: 0, ‘apple‘: 1}

https://blog.csdn.net/blmoistawinde/article/details/80816179

以上是关于sklearn: TfidfVectorizer 中文处理及一些使用参数的主要内容,如果未能解决你的问题,请参考以下文章

sklearn中CountVectorizer与TfidfVectorizer区别

sklearn: TfidfVectorizer 中文处理及一些使用参数

Python SKlearn TfidfVectorizer 参数错误

在sklearn TfidfVectorizer中执行停用词删除过程时?

如何在无监督聚类期间在 sklearn 的 TfidfVectorizer 中选择参数

sklearn TfidfVectorizer:通过不删除停用词来生成自定义 NGram