TF-IDF原理及使用
Posted cbugs
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了TF-IDF原理及使用相关的知识,希望对你有一定的参考价值。
1、TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).(逆文档词频)
2、自我理解:
公式TF = $$frac{语料库中关键词出现的次数}{总词数量}$$ ##权重w (词频)
或者
TF = $$frac{某个词在文章中出现的次数}{文章中出现词最多的次数}$$
IDF = $$logfrac{文档总数}{某个文件(文档)关键词出现的次数+1}$$ ##文档总数。多个文件
TF-IDF = TF * IDF #词频-逆文档词频 词频 * 逆文档词频
3、通常算法实现的步骤:
1)、分词
2)、文件数
3、python 算法实现:jieba
4、hanlp实现
5、nltk的实现
6、Scikit-Learn的实现
4、应用场景:
原理: https://blog.csdn.net/zrc199021/article/details/53728499
以上是关于TF-IDF原理及使用的主要内容,如果未能解决你的问题,请参考以下文章