sklearn: TfidfVectorizer 中文处理及一些使用参数
Posted caiyishuai
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sklearn: TfidfVectorizer 中文处理及一些使用参数相关的知识,希望对你有一定的参考价值。
TfidfVectorizer可以把原始文本转化为tf-idf的特征矩阵,从而为后续的文本相似度计算,主题模型,文本搜索排序等一系列应用奠定基础。基本应用如:
#coding=utf-8 from sklearn.feature_extraction.text import TfidfVectorizer document = ["I have a pen.", "I have an apple."] tfidf_model = TfidfVectorizer().fit(document) sparse_result = tfidf_model.transform(document) # 得到tf-idf矩阵,稀疏矩阵表示法 print(sparse_result) # (0, 3) 0.814802474667 # (0, 2) 0.579738671538 # (1, 2) 0.449436416524 # (1, 1) 0.631667201738 # (1, 0) 0.631667201738 print(sparse_result.todense()) # 转化为更直观的一般矩阵 # [[ 0. 0. 0.57973867 0.81480247] # [ 0.6316672 0.6316672 0.44943642 0. ]] print(tfidf_model.vocabulary_) # 词语与列的对应关系 # {‘have‘: 2, ‘pen‘: 3, ‘an‘: 0, ‘apple‘: 1}
https://blog.csdn.net/blmoistawinde/article/details/80816179
以上是关于sklearn: TfidfVectorizer 中文处理及一些使用参数的主要内容,如果未能解决你的问题,请参考以下文章
sklearn中CountVectorizer与TfidfVectorizer区别
sklearn: TfidfVectorizer 中文处理及一些使用参数
Python SKlearn TfidfVectorizer 参数错误
在sklearn TfidfVectorizer中执行停用词删除过程时?