TF-IDF原理及使用

Posted 2021-01-16 cbugs

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了TF-IDF原理及使用相关的知识，希望对你有一定的参考价值。

1、TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).（逆文档词频）

2、自我理解：

　　公式TF = $$frac{语料库中关键词出现的次数}{总词数量}$$ ##权重w （词频）

或者

TF = $$frac{某个词在文章中出现的次数}{文章中出现词最多的次数}$$

IDF = $$logfrac{文档总数}{某个文件（文档）关键词出现的次数+1}$$ ##文档总数。多个文件

TF-IDF = TF * IDF #词频-逆文档词频词频 * 逆文档词频

3、通常算法实现的步骤：

1）、分词

2）、文件数

3、python 算法实现：jieba

4、hanlp实现

5、nltk的实现

6、Scikit-Learn的实现

4、应用场景：

原理： https://blog.csdn.net/zrc199021/article/details/53728499

以上是关于TF-IDF原理及使用的主要内容，如果未能解决你的问题，请参考以下文章