使用java libsvm进行文本分类——模型、参数选择

Posted 2023-03-12

技术标签:

【中文标题】使用java libsvm进行文本分类——模型、参数选择【英文标题】：Text classification using java libsvm - model, parameter selection 【发布时间】：2015-06-13 13:59:54 【问题描述】：

我正在尝试使用 libsvm 的直接 java 端口进行文本分类。

目前准确度较差，请关注this guide 调整模型。现阶段有2个疑问。

当运行 svm.svm_cross_validation / svm.svm_train 方法时，我得到以下输出，这是什么意思，我如何从中推断出 gamma 和 C？

优化完成，#iter = 1504 nu = 0.5800464037122964 obj = -299.9624358558652，rho = -0.9799716681242028 nSV = 3000，nBSV = 3000 总 nSV = 3000 版本 libsvm=3.2, java=1.7

【问题讨论】：

【参考方案1】：

我假设您按照 [1] 中的说明进行文本分类。

要获得您的特征值（简单缩放、不缩放、随心所欲），您有多种可能性 [2]。

TFC方法效果很好[1]，详情请看[2]：

TermFrequency * log(N/n) * 1 / sum((TermFrequency_i * log(N/n_i))^2)

与

sum => every term in your document collection; 
N => total number of documents; 
n => number of documents to which a term is assigned

输出来自训练过程。对于训练（假设您使用的是 RBF 内核），参数 gamma 和 C 使用默认值（如果您不通过 CLI 参数提供它们） - 与 CV 相同。

要为您的分类问题获得“最佳” gamma 和 C，您必须继续进行网格搜索（在链接指南中进行了描述）。 Afaik 他们在 LIBSVM 中没有用于网格搜索的内置功能。

[1] T. Joachims：支持向量机的文本分类：使用许多相关特征进行学习；施普林格：德国海德堡，1998，doi:10.1007/BFb0026683

[2] G. Salton 和 C. Buckley。自动文本检索中的术语加权方法。信息处理和管理，24(5):513523, 1988.

【讨论】：

我一直在尝试各种缩放方案，在安然垃圾邮件数据集上得到不同的结果。想知道需要多少训练数据才能获得好的结果。另外，知道 libSVM 使用什么缩放方案吗？每个“默认”不进行缩放。如果您的值涵盖了巨大的间隔，则缩放到 -1 到 1 可能会很有用。准确性首先取决于您的数据，其次取决于所选功能、调整的内核参数，最后取决于术语加权或缩放方法。您使用多少文件进行培训？有多少类别？任何类型的预处理？

以上是关于使用java libsvm进行文本分类——模型、参数选择的主要内容，如果未能解决你的问题，请参考以下文章