使用 Weka 进行文本分类

Posted

技术标签:

【中文标题】使用 Weka 进行文本分类【英文标题】:Using Weka for Text Classification 【发布时间】:2013-01-11 08:36:03 【问题描述】:

我是 Weka 的新手!

我的目的是将现有文章分为 2 类:教育或娱乐。

我已经有 400 篇教育类文章和 400 篇娱乐类文章。

那么如何为 Weka 创建 arff 输入文件呢?还是 Weka 的其他解决方案?

(对不起,我的英语不好,谢谢)

【问题讨论】:

【参考方案1】:

This article 展示了如何将 CSV 格式转换为 ARFF,前提是您的数据集为 CSV 格式。

但是,如果您还没有数据集,则需要事先执行很多任务。

【讨论】:

对不起,我的文件是文本文件,不是 CSV 格式。我想知道如何以 csv 或 arff 格式表示这些文本文件!啊,我用n-grams来创建特征向量...【参考方案2】:

虽然这似乎是一段漫长的旅程,但您实际上可以做到。您尝试做的一切都与文本挖掘的主题有关。我想你可以从this link 学到很多东西。另外,我认为可能对您有用的信息是:

    首先,在每个文本格式中打开您的文件,然后将其粘贴到电子表格程序(例如 Excel)中的一行中。在其旁边的列中,输入文档类型(教育或娱乐)。您总共将有 800 行。

    在 Excel 的文件菜单中单击“另存为”,然后选择文件类型为“.csv”。并将其保存为“.csv”。 (在“Excel”中单击“保存”后,他询问您是否要将工作簿保存为“Excel”。我认为“否”。

    要在“Weka”中打开“.csv”文件:在“Weka”中选择“打开文件”,将文件类型标记为 .csv,然后选择“.csv”文件。

    从“过滤器 -> 选择”列表中选择“StringToVector”。必要的参数设置可以查看this address。

    您将在 Weka 中使用“保存”命令获得所需的“.arff”格式文件。

我希望它有所帮助。祝你好运。

【讨论】:

以上是关于使用 Weka 进行文本分类的主要内容,如果未能解决你的问题,请参考以下文章

weka 3.7 explorer 无法对文本进行分类

使用 Weka 进行文本分类

在java中使用朴素贝叶斯(weka)进行简单的文本分类

关于使用独立数据集通过 weka 验证文本分类的问题

Java中使用Weka的基本文本分类

在 Java 中构建/运行流式 Weka 文本分类器