TF-IDF概念

Posted 嶙羽

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TF-IDF概念相关的知识,希望对你有一定的参考价值。

之前就了解过TF-IDF,现在做一个回顾。

概念:

TF(Term Frequency)词频:一个文档中关键词出现的次数/该文档的总词数,

IDF(Inverse Document Frequency)逆文档频率:

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词),这就是一个调整系数,如果某个词在语料库中总体比较少见,但是它在这篇文档里出现频率很高,那这个词就很有可能是我们需要的关键词

得到"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

以上是关于TF-IDF概念的主要内容,如果未能解决你的问题,请参考以下文章

TF-IDF算法原理

TF-IDF及其算法

TF-IDF及其算法

TF-IDF算法及其编程实现

使用analyzer ='char'如何计算Tf-Idf值?

基于IKAnalyzer分词计算TF-IDF判断文章主题