如何使用 weka 进行预测

Posted

技术标签:

【中文标题】如何使用 weka 进行预测【英文标题】:How to do prediction with weka 【发布时间】:2015-05-18 11:10:43 【问题描述】:

我正在使用 weka 进行一些文本挖掘,我有点困惑,所以我在这里问我如何(使用一组在某种程度上分类为:笔记、状态工作,不符合,警告)预测新评论是否属于特定类,所有评论(9551)我已经完成了一个预处理,使用过滤器“stringtowordvector”获得了一个标记向量,然后我使用了简单的kmeans 来获得一些簇。 所以问题是:如果用户发表新评论,我可以用这些数据预测它是否属于评论类别? 对不起,如果我的问题有点困惑,但我也是。 谢谢

【问题讨论】:

不幸的是,类警告和不符合只有 45 项(全部) 【参考方案1】:

简单的训练-验证-测试

    从标记的实例创建两个数据集。一个是训练集,另一个是验证集。训练集将包含大约 60% 的标记数据,验证将包含 40% 的标记数据。此拆分没有硬性规定,但 60-40 拆分是一个不错的选择。 对您的训练数据使用 K-means(或任何其他聚类算法)。开发一个模型。记录模型在训练集上的错误。如果错误很小并且可以接受,那么您很好。保存模型。 目前,您的验证集将是您的测试数据集。应用您保存在验证集上的模型。记录错误。训练错误和验证错误有什么区别?如果它们都低,则模型的泛化“看起来”很好。 准备一个测试数据集,其中包含训练和测试数据集的所有功能,但类/集群未知。 将模型应用于测试数据。

10 倍交叉验证

    将此任务使用您的所有标记数据实例。 通过 10 倍 CV 设置应用 K-means(或您选择的任何其他算法)。 记录训练错误和CV错误。他们低吗?误差之间的差异是否很小?如果是,则保存模型并将其应用于类/簇未知的测试数据。

注意:训练/测试/验证错误及其差异会给您一个“非常初步”的关于模型过度拟合/欠拟合的想法。它们是理智测试。您需要执行其他测试,例如学习曲线,以查看您的模型是过拟合、欠拟合还是完美。如果出现过拟合和欠拟合问题,您需要尝试多种不同的技术来克服它们。

【讨论】:

所以如果我想知道评论是否涉及问题,我必须首先标记所有我认为他们谈论问题的 cmets 对吗? 我跟着这个初学者教程,它给了我一些想法和澄清:youtube.com/watch?v=gd5HwYYOz2U 是的。那就是监督分类。希望我的教程对你有所帮助。

以上是关于如何使用 weka 进行预测的主要内容,如果未能解决你的问题,请参考以下文章

如何在 WEKA 中测试分类数据集?

weka中如何对整个数据集进行分类

Weka 预测(百分比置信度) - 这是啥意思?

如何在 WEKA 中打印出交叉验证后的预测类

如何获取weka中测试实例的每个类的概率

如何使用 weka 实现决策树?