使用 StringToWordVector 和 SMO 的 Weka 分类项目

Posted

技术标签:

【中文标题】使用 StringToWordVector 和 SMO 的 Weka 分类项目【英文标题】:Weka Classification Project Using StringToWordVector and SMO 【发布时间】:2016-09-15 13:38:54 【问题描述】:

我正在从事一个项目,其中我有大约 18 个类,总共大约 4,000 个实例。我有 7 个属性,1 个是字符串数据,其余的是名义上的。我目前正在使用 Platt 的 SMO 分类器对字符串属性使用 StringToWordVector,取得了不错的效果。我们即将实现这一点,但我想尝试其他分类器,以防我可以从中获得更好的结果。有什么建议?

另外,我应该对这么多类使用 MultiClassClassifier 吗?如果是这样,我应该在其中尝试哪些设置?

感谢任何建议!

【问题讨论】:

尝试多项朴素贝叶斯分类器。它是首选的文本分类,因为它给出的结果与 SVM 相当。它也会更快。 多项朴素贝叶斯与多值名义属性不兼容是我尝试运行模型时收到的错误。朴素贝叶斯的执行精度比 SMO 低约 20%。我还没有尝试过 MuliClassClassifier 和 Naive bayes 的所有可能性,但我认为它的性能并没有好得多。不过还是谢谢你的推荐! 【参考方案1】:

产生最佳结果的 AdaBoosted J48 决策树已在我们部门中得到很好的确立

【讨论】:

以上是关于使用 StringToWordVector 和 SMO 的 Weka 分类项目的主要内容,如果未能解决你的问题,请参考以下文章

解释 StringToWordVector() 的输出 - Weka

为啥 weka 在 WEKA 上计算 stringToWordVector 的错误数函数?

使用 Weka 进行文本分类

关于使用独立数据集通过 weka 验证文本分类的问题

如何使用 weka 进行预测

weka 3.7 explorer 无法对文本进行分类