python [NLTK实现TF-IDF]#TF-IDF#算法#数据挖掘#文本挖掘#文本分类
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python [NLTK实现TF-IDF]#TF-IDF#算法#数据挖掘#文本挖掘#文本分类相关的知识,希望对你有一定的参考价值。
from nltk.text import TextCollection
# ⾸首先, 把所有的⽂文档放到TextCollection类中。
# 这个类会⾃自动帮你断句句, 做统计, 做计算
corpus = TextCollection(['this is sentence one',
'this is sentence two',
'this is sentence three'])
# 直接就能算出tfidf
# (term: ⼀一句句话中的某个term, text: 这句句话)
print(corpus.tf_idf('this', 'this is sentence four'))
# 0.444342
# 同理理, 怎么得到⼀一个标准⼤大⼩小的vector来表示所有的句句⼦子?
# 对于每个新句句⼦子
new_sentence = 'this is sentence five'
# 遍历⼀一遍所有的vocabulary中的词:
for word in standard_vocab:
print(corpus.tf_idf(word, new_sentence))
# 我们会得到⼀一个巨⻓长(=所有vocab⻓长度)的向量量
以上是关于python [NLTK实现TF-IDF]#TF-IDF#算法#数据挖掘#文本挖掘#文本分类的主要内容,如果未能解决你的问题,请参考以下文章
python中的TF-IDF实现
TF-IDF 简单使用 - NLTK/Scikit 学习
关键字提取算法TF-IDF和TextRank(python3)————实现TF-IDF并jieba中的TF-IDF对比,使用jieba中的实现TextRank
tf-idf算法python实现
翻译: 词频逆文档频率TF-IDF算法介绍及实现 手把手用python从零开始实现
翻译: 词频逆文档频率TF-IDF算法介绍及实现 手把手用python从零开始实现