Java SVM 文本分类、训练和测试文件?

Posted

技术标签:

【中文标题】Java SVM 文本分类、训练和测试文件?【英文标题】:Java SVM Text Classification , Train & Test Files? 【发布时间】:2014-01-31 07:10:48 【问题描述】:

我正在尝试将文本文档分类为类别,例如:

文档 1:“篮球是一项很好的运动” ---> 类别:运动 文件 2:“第二次世界大战 ..” ---> 类别:历史 ...

我的目标是使用 SVM 算法创建 Java 接口! 所以,我应该使用 SVM Java Library ,我找到了两个:

SVMLIGH LIBSVM

我应该使用第一个还是第二个?

我做了很多研究,我发现我应该做两件事:

我应该准备一份培训文件。 在 SVM 中,此文件有一种特殊格式(示例:1 1:317.5) 但问题是:我应该从什么生成这个文件?仅从文件中?还是来自别的东西?

我应该有一个测试文件,这意味着要分类的新文档。我应该转换新文档以分类为 SVM 测试文件格式吗?

对吗?

请指导我,我真的迷路了,我不知道该怎么办!楼主

【问题讨论】:

【参考方案1】:

是的,您应该将格式更改为 svm 标准 您的 svm 分类器对文本一无所知,首先您应该将文本(火车,测试)更改为标准格式 您可以使用Weka 启动您的分类器,weka 有简单的 GUI,您只需点击几下即可对数据集进行分类 当您对分类器及其准确性有信心时,然后在 java 中实现它 你也可以在你的java代码中使用Weka

PS: 1- WEKA 文本分类首次和初学者用户:http://www.youtube.com/watch?v=IY29uC4uem8

2- http://www.cs.waikato.ac.nz/ml/weka/‎

【讨论】:

你能告诉任何有java代码的链接在Weka中使用SVM对文档进行分类

以上是关于Java SVM 文本分类、训练和测试文件?的主要内容,如果未能解决你的问题,请参考以下文章

HanLP 基于SVM支持向量机 训练 文本分类

使用 SVM 进行分类

自然语言处理 - 文本分类功能

SVM 多类文本分类

使用来自 LDA 的主题建模信息作为特征,通过 SVM 执行文本分类

使用 SVM 对文本数据进行多标签分类