java中使用libsvm的文档分类
Posted
技术标签:
【中文标题】java中使用libsvm的文档分类【英文标题】:Document classification using libsvm in java 【发布时间】:2015-05-18 05:13:33 【问题描述】:我正在使用 libsvm 库对简历进行文档分类。我有多份简历,我需要对它们进行分类。在这种情况下,我需要多标签分类还是多类分类。我应该考虑以上哪个选项,还请提出一种方法?
【问题讨论】:
@severian .. 你能建议一下吗? 【参考方案1】:您的要求并不直接,为了开发这样的系统,您需要提出几个步骤,例如:
你需要一个不同类型文档(各种类型的简历)的数据集
然后你需要确定可以使用什么样的特征来区分它们(你将如何区分它们,基于什么(例如,简历长度,字数,简历标题的内容等) ))
然后你需要准备一组特征向量来训练 SVM。 (如果只需要对相关和不相关的简历进行分类,这将是两个类。如果有两个以上的类,这将是多类,LibSVM 支持多类)
训练时,需要进行缩放、交叉验证以提高准确率 (read here )
您需要完成以上步骤才能成功预测。
【讨论】:
以上是关于java中使用libsvm的文档分类的主要内容,如果未能解决你的问题,请参考以下文章