数据挖掘和 weka

Posted

技术标签:

【中文标题】数据挖掘和 weka【英文标题】:Data mining and weka 【发布时间】:2015-05-16 17:32:04 【问题描述】:

您好,有人要求搜索至少 20 个不同的数据集,最多 40 个数据集。我需要使用 WEKA 软件对所选数据集应用以下分类技术:

(1)决策树(SimpleCart),

(2) 朴素贝叶斯和

(3) K-NN (IBk)(K取1的值直到数据集中的类标签数量)

在所有数据集上应用 WEKA 后,需要完成以下任务:

比较您通过 WEKA 获得的应用技术的性能。 分析有关数据集属性的结果。

我以前从未使用过 weka,不确定如何应用分类技术以及实际比较的内容,但我学得很快。我并不真正了解需要做什么......我只需要一些方向或一些例子有人请吗?

【问题讨论】:

这不是编程问题。有一本好书,Weka 有一个 GUI。 【参考方案1】: 要查找数据集,您可以使用 https://archive.ics.uci.edu/ml/datasets.html 为了比较分类器的性能,有许多指标,如 AUC(曲线下面积)、ROC 曲线、准确度、精度和召回率。 Weka 有能力生成这些度量。我建议使用 AUC 和 Accuracy。 要学习如何使用Weka,有很多在线教程如http://www.ibm.com/developerworks/library/os-weka2/

【讨论】:

以上是关于数据挖掘和 weka的主要内容,如果未能解决你的问题,请参考以下文章

从零开始学习weka数据挖掘

数据挖掘与机器学习——weka应用技术与实践

WEKA:如何区分“缺失”和“不适用”的数字数据?

如何在 Weka 中对训练和测试数据集进行分类

WEKA简单介绍与资源汇总

Weka学习篇——介绍