具有大或小的语料库大小的 Tf-idf

Posted

技术标签:

【中文标题】具有大或小的语料库大小的 Tf-idf【英文标题】:Tf-idf with large or small corpus size 【发布时间】:2017-12-04 19:42:09 【问题描述】:

“对大语料使用Tf-Idf方法的一个本质是,使用的语料越大,词项的唯一权重越多。这是因为语料中的文档大小或文档长度的增加给出了较低的概率在语料库中复制两个词项的权重值。也就是说,Tf-Idf 方案中的权重可以呈现权重的指纹。在小规模的语料库中,Tf-Idf 无法产生这种差异,因为存在巨大的发现潜力两个词条具有相同的权重,因为它们在每个文档中以相同的频率共享相同的源文档。根据语料库的大小,在抄袭检测领域使用 Tf-Idf 加权方案,该特征可以成为对手和支持者。"

这是我从 tf-idf 技术中推断出来的……是真的吗?

有什么链接或文件可以证明我的结论吗?

【问题讨论】:

要求链接、文档或其他场外资源的问题不属于 Stack Overflow 的主题。 【参考方案1】:

在等待了 4 年之后,我可以说答案是肯定的 :)

这实际上可以简单地证明,如下图所示。我们有 4 个文档,在每个术语的 TF 和 TFIDF 表下方。

当我们有一个小的语料库(很少的文档)时,我们可以看到一些术语具有相同分布的概率会很高(空气、质量),因此它们的 tfidf 值是相同的。见上表。

但是当我们有一个包含大量文档的语料库时,我们不太可能在所有语料库中找到两个具有相同分布的术语。

注意:我用这个网站计算Tf-Idf:https://remykarem.github.io/tfidf-demo/

【讨论】:

以上是关于具有大或小的语料库大小的 Tf-idf的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 tf-idf 选择停用词? (非英语语料库)

使用相关和随机语料库计算 TF-IDF 单词分数

TF-IDF学习笔记

TF-IDF介绍

TF-IDF及其算法

MapReduce实现TF-IDF详解