词干对词频的影响?

Posted

技术标签:

【中文标题】词干对词频的影响?【英文标题】:Effects of Stemming on the term frequency? 【发布时间】:2012-05-14 21:49:19 【问题描述】:

词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响?

谢谢!

【问题讨论】:

【参考方案1】:

tf 是词频 idf 是逆文档频率,它是通过将文档总数除以包含该术语的文档数,然后取该商的对数得出的。

stemming 效果是将源自同一词干的所有单词分组(例如:played、play、..),这种分组将增加该词干的出现率,因为频率是使用词干计算的,而不是字, 例如,如果您有 2 个文档: 第一个包含 'play' 2 次和 'played' 5 次, 第二个文档包含 'play' 3 次和 'played' 1 次 如果你在没有词干的情况下搜索“play”,第二个文档将是第一个,因为它出现了更多的“play”这个词,而如果你做词干,两个词在词干后都将是“play”,第一个文档将是首先是因为它包含 stem 播放 7 次,第二个文档包含 stem 播放 4 次。

关于停用词的去除,它在所有文档中都经常出现,并且不被视为任何一个关键字,它会在没有任何场景的情况下具有很高的频率。

【讨论】:

以上是关于词干对词频的影响?的主要内容,如果未能解决你的问题,请参考以下文章

使用Scala语言调用Flink框架进行WordCount词频统计测试不同Parallelism并行度对运算速度的影响

词干会损害文本分类的精度吗?

文本聚类——文本预处理

Python NLTK 中用于情感分析的德语词干

使用 Spacy、Bert 时是不是需要对文本分类进行停用词去除、词干/词形还原?

滞后环节对系统的影响