Weka 常用分类算法效果比较

Posted Vinicier

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Weka 常用分类算法效果比较相关的知识,希望对你有一定的参考价值。

本实验是福建矿产分布分类识别实验,使用常用的weka 分类识别算法,第一组实验只使用数据中的数值型数据,第二组实验在数值型特征基础上加上了标称属性分类。

1. 数值型数据在weka 平台上

数值型数据分布

横坐标代表类别数,一共有14类数据,纵坐标代表每类数据的样本个数分布。

在weka中采用多种传统分类方法实验结果

在weka中测试以下常用的分类方法,记录各方法的识别正确率、Kappa系数、均方根误差、相对绝对误差如下表所示:

方法名weka中对应方法Correctly Classified rateKappa 系数Root mean square errorRelative absolute error
NNlazy.IB138.9908 %0.2650.295273.1243 %
2-NNlazy.IBk(k=2)33.945 %0.20660.252677.5179 %
3-NNlazy.IBk(k=3)38.5321 %0.2610.242479.9899 %
Naive Bayesbayes.NaiveBayes30.2752 %0.21090.293384.9225 %
Bayes Netbayes.BayesNet30.2752 %0.07360.240897.0716 %
Complement Naive Bayesbayes.ComplementNaiveBayes31.1927 %0.08850.313582.471 %
Simple Logisticfunctions.SimpleLogistic42.6606 %0.26990.232683.2465 %
Logisticfunctions.Logistic38.9908 %0.26750.271276.2028 %
MultilayerPerceptronfunctions.MultilayerPerceptron44.0367 %0.30710.238280.2227 %
SMOfunctions.SMO34.4037 %0.08010.2499106.4209 %
KStarlazy.KStar43.1193 %0.30150.269569.9768 %
C4.5改进J48trees.J4840.8257 %0.28560.274974.6474 %
Simple Cart 4.5trees.SimpleCart41.7431 %0.23030.242685.4892 %
Random Foresttrees.RandomForest55.0459 %0.41490.211180.833 %
SVMfunctions.LibSVM28.8991 %-0.0110.318785.2201 %

各方法结果

最近邻算法NN

2-NN

3-NN

Naive Bayes

Bayes Net

Complement Naive Bayes

Simple Logistic

Logistic

MultilayerPerceptron

SMO

KStar

C4.5改进J48

Simple Cart 4.5

Random Forest SVM

2 添加标称性数据后实验结果

在原始数值性数据基础上添加非数值属性,同样在weka常用分类方法上检测实验结果

数据集前6个属性是标称属性

各类数据分布图:

测试以下常用的分类方法,记录各方法的识别正确率、Kappa系数、均方根误差、相对绝对误差如下表所示:

方法名weka中对应方法Correctly Classified rateKappa 系数Root mean square errorRelative absolute error
NNlazy.IB179.8165 %0.75780.169824.1915 %
2-NNlazy.IBk(k=2)76.6055 %0.71710.14929.5295 %
3-NNlazy.IBk(k=3)79.3578 %0.75080.144331.0323 %
Naive Bayesbayes.NaiveBayes45.4128 %0.37890.264767.4257 %
Bayes Netbayes.BayesNet58.7156 %0.52190.203151.7458 %
Simple Logisticfunctions.SimpleLogistic80.7339 %0.76730.141529.2145 %
Logisticfunctions.Logistic70.1835 %0.64320.201835.2254 %
MultilayerPerceptronfunctions.MultilayerPerceptron75.6881 %0.70340.159734.4279 %
SMOfunctions.SMO72.4771 %0.65470.2424103.3214 %
KStarlazy.KStar57.3394 %0.4790.233751.3496 %
C4.5改进J48trees.J4883.4862 %0.79990.145174.6474 %
Simple Cart 4.5trees.SimpleCart74.7706 %0.69370.174333.9928 %
Random Foresttrees.RandomForest87.156 %0.84370.127738.4927 %
SVMfunctions.LibSVM28.8991 %-0.0110.318785.2201 %

Random Forest

C4.5改进J48

Simple Logistic

NN

总结

  • 针对实验一和实验二中的数据结果,我们可以知道,添加标称属性后实验整体的准确度都大幅提高了很多。
  • Random Forest、Multiple Layer Perceptron、C4.5、Simple Logistic 等算法的分类效果最好。

以上是关于Weka 常用分类算法效果比较的主要内容,如果未能解决你的问题,请参考以下文章

Weka:分类器和 ReplaceMissingValues

Weka算法Classifier-meta-AdaBoostM1源代码分析

分类预测算法评价(初识)

评价分类与预测算法的指标

WEKA 上针对 ECG 频率/幅度的良好聚类/分类算法是啥?

决策树算法之鸢尾花特征分类可视化详解机器学习