java中使用libsvm的文档分类

Posted

技术标签:

【中文标题】java中使用libsvm的文档分类【英文标题】:Document classification using libsvm in java 【发布时间】:2015-05-18 05:13:33 【问题描述】:

我正在使用 libsvm 库对简历进行文档分类。我有多份简历,我需要对它们进行分类。在这种情况下,我需要多标签分类还是多类分类。我应该考虑以上哪个选项,还请提出一种方法?

【问题讨论】:

@severian .. 你能建议一下吗? 【参考方案1】:

您的要求并不直接,为了开发这样的系统,您需要提出几个步骤,例如:

    你需要一个不同类型文档(各种类型的简历)的数据集

    然后你需要确定可以使用什么样的特征来区分它们(你将如何区分它们,基于什么(例如,简历长度,字数,简历标题的内容等) ))

    然后你需要准备一组特征向量来训练 SVM。 (如果只需要对相关和不相关的简历进行分类,这将是两个类。如果有两个以上的类,这将是多类,LibSVM 支持多类)

    训练时,需要进行缩放、交叉验证以提高准确率 (read here )

    您需要完成以上步骤才能成功预测。

【讨论】:

以上是关于java中使用libsvm的文档分类的主要内容,如果未能解决你的问题,请参考以下文章

使用java libsvm进行文本分类——模型、参数选择

解密SVM系列:matlab下libsvm的简单使用:分类与回归

在 Weka 中使用 libsvm 分类器和堆大小

如何使用 libsvm 计算多类预测的概率?

如何使用 LibSVM 进行“多分类”方法?

带有预计算内核的 libsvm:如何计算分类分数?