python [NLTK实现TF-IDF]#TF-IDF#算法#数据挖掘#文本挖掘#文本分类

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python [NLTK实现TF-IDF]#TF-IDF#算法#数据挖掘#文本挖掘#文本分类相关的知识,希望对你有一定的参考价值。

from nltk.text import TextCollection 
# ⾸首先, 把所有的⽂文档放到TextCollection类中。 
# 这个类会⾃自动帮你断句句, 做统计, 做计算 
corpus = TextCollection(['this is sentence one',
                         'this is sentence two',
                         'this is sentence three']) 
# 直接就能算出tfidf 
# (term: ⼀一句句话中的某个term, text: 这句句话) 
print(corpus.tf_idf('this', 'this is sentence four')) 
# 0.444342 
# 同理理, 怎么得到⼀一个标准⼤大⼩小的vector来表示所有的句句⼦子?
# 对于每个新句句⼦子 
new_sentence = 'this is sentence five'
# 遍历⼀一遍所有的vocabulary中的词: 
for word in standard_vocab:    
  print(corpus.tf_idf(word, new_sentence))    
# 我们会得到⼀一个巨⻓长(=所有vocab⻓长度)的向量量

以上是关于python [NLTK实现TF-IDF]#TF-IDF#算法#数据挖掘#文本挖掘#文本分类的主要内容,如果未能解决你的问题,请参考以下文章

python中的TF-IDF实现

TF-IDF 简单使用 - NLTK/Scikit 学习

关键字提取算法TF-IDF和TextRank(python3)————实现TF-IDF并jieba中的TF-IDF对比,使用jieba中的实现TextRank

tf-idf算法python实现

翻译: 词频逆文档频率TF-IDF算法介绍及实现 手把手用python从零开始实现

翻译: 词频逆文档频率TF-IDF算法介绍及实现 手把手用python从零开始实现