SVM如何计算文档分类中测试文档的tf-df？

Posted 2023-03-12

技术标签:

【中文标题】SVM如何计算文档分类中测试文档的tf-df？【英文标题】：SVM How to calculate tf-df of test documents in document classification? 【发布时间】：2013-08-14 21:25:03 【问题描述】：

在我的 SVM 中，我在文档上使用 tf-idf 进行特征提取。这些 tf-idf 是在整个训练文档上计算出来的。

现在当我得到一个我想要分类的测试文档时，我如何为它生成向量？

我在计算 tf-idf 之前使用了词干提取。我也可以在测试文档上执行该操作。我有 count_of_words 用于火车文件。

我应该增加训练文档 count_of_words 中的单词计数来计算测试文档的 tf-idf 还是应该直接使用它？

【问题讨论】：

【参考方案1】：

以与训练期间相同的方式计算它们，但：使用基于训练文档的 idf 和来自测试文档的 tf。如果你有很多新文档进来，只需不时更新训练数据并重新训练你的模型。

【讨论】：

对于 tf-idf 我需要 tf 和 idf。 tf 可以从 test-doc 获取。现在我有来自 train-docs 的 idf。所以我应该只使用那个 idf 吗？

以上是关于SVM如何计算文档分类中测试文档的tf-df？的主要内容，如果未能解决你的问题，请参考以下文章

带有预计算内核的 libsvm：如何计算分类分数？

使用 LSA/SVD 进行文档分类

我需要在 weka 中制作一个 SVM 来使用 Java 过滤文档

如何进行交叉验证 SVM 分类器

matlab - vlfeat - vl_pegasos (svm) 分类

Encog中的多类SVM分类