词频的TFIDF的理论依据及不足

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了词频的TFIDF的理论依据及不足相关的知识,希望对你有一定的参考价值。

参考技术A

TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF是一种试图抑制噪声的加权 ,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。
此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出html的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。

以上是关于词频的TFIDF的理论依据及不足的主要内容,如果未能解决你的问题,请参考以下文章

矩阵 TFIDF 的降维

结对-结对英文词频检测程序-需求分析

结对-结对英文词频检测程序-需求分析

如何用WPS或者Word自动提取关键词?或者显示词频较高的词?

python进行分词及统计词频

技术视角 自然语言处理之词频-逆文本词频(TF-IDF)详解