使用 Weka 进行文本分类
Posted
技术标签:
【中文标题】使用 Weka 进行文本分类【英文标题】:Using Weka for Text Classification 【发布时间】:2013-01-11 08:36:03 【问题描述】:我是 Weka 的新手!
我的目的是将现有文章分为 2 类:教育或娱乐。
我已经有 400 篇教育类文章和 400 篇娱乐类文章。
那么如何为 Weka 创建 arff 输入文件呢?还是 Weka 的其他解决方案?
(对不起,我的英语不好,谢谢)
【问题讨论】:
【参考方案1】:This article 展示了如何将 CSV 格式转换为 ARFF,前提是您的数据集为 CSV 格式。
但是,如果您还没有数据集,则需要事先执行很多任务。
【讨论】:
对不起,我的文件是文本文件,不是 CSV 格式。我想知道如何以 csv 或 arff 格式表示这些文本文件!啊,我用n-grams来创建特征向量...【参考方案2】:虽然这似乎是一段漫长的旅程,但您实际上可以做到。您尝试做的一切都与文本挖掘的主题有关。我想你可以从this link 学到很多东西。另外,我认为可能对您有用的信息是:
首先,在每个文本格式中打开您的文件,然后将其粘贴到电子表格程序(例如 Excel)中的一行中。在其旁边的列中,输入文档类型(教育或娱乐)。您总共将有 800 行。
在 Excel 的文件菜单中单击“另存为”,然后选择文件类型为“.csv”。并将其保存为“.csv”。 (在“Excel”中单击“保存”后,他询问您是否要将工作簿保存为“Excel”。我认为“否”。
要在“Weka”中打开“.csv”文件:在“Weka”中选择“打开文件”,将文件类型标记为 .csv,然后选择“.csv”文件。
从“过滤器 -> 选择”列表中选择“StringToVector”。必要的参数设置可以查看this address。
您将在 Weka 中使用“保存”命令获得所需的“.arff”格式文件。
我希望它有所帮助。祝你好运。
【讨论】:
以上是关于使用 Weka 进行文本分类的主要内容,如果未能解决你的问题,请参考以下文章