使用 SVM 时是不是需要 TF-IDF?
Posted
技术标签:
【中文标题】使用 SVM 时是不是需要 TF-IDF?【英文标题】:Is TF-IDF necessary when using SVM?使用 SVM 时是否需要 TF-IDF? 【发布时间】:2014-03-15 22:42:10 【问题描述】:我正在使用支持向量机对短语进行分类。在使用 SVM 之前,我知道我应该对短语向量进行某种标准化。一种流行的方法是 TF-IDF。
TF-IDF 得分最高的词通常是最能表征文档主题的词。
但这不正是 SVM 所做的吗?对最能体现文档特征的术语给予最高权重?
提前致谢:-)
【问题讨论】:
【参考方案1】:术语的权重(由 SVM 分类器分配)可能与该术语与特定类别的相关性成正比,也可能不成正比。这取决于分类器的内核以及使用的正则化。 SVM 确实不为最能表征单个文档的术语分配权重。
词频 (tf) 和逆文档频率 (idf) 用于对文档向量中词的值进行编码。这与 SVM 分类器无关。
【讨论】:
以上是关于使用 SVM 时是不是需要 TF-IDF?的主要内容,如果未能解决你的问题,请参考以下文章
Logistics Regression & SVC:如果特征是 BOW、tf-idf 或 doc2Vec,我们是不是需要进行缩放?