扫一扫所有机器学习分类器？

Posted 2023-03-13

技术标签:

【中文标题】扫一扫所有机器学习分类器？【英文标题】：Sweep through all machine learning classifiers? 【发布时间】：2013-10-20 00:56:18 【问题描述】：

我正在使用 Weka 对一些大型数据集执行分类、聚类和一些回归。我目前正在尝试所有分类器（决策树、SVM、朴素贝叶斯等）。

有没有办法（在 Weka 或其他机器学习工具包中）扫描所有可用的分类器算法，以找到产生最佳交叉验证准确度或其他指标的算法？

我也想为我的其他聚类问题找到最佳聚类算法；也许找到最小的平方和误差？

【问题讨论】：

您已经试用过 WEKA-Experimenter 了吗？它允许使用许多分类器并将结果与统计测试进行比较。 【参考方案1】：

这不是某种过度拟合吗？尝试大量分类器，然后选择最好的？

还要注意，预处理通常很重要，不同的分类器可能需要不同的预处理；每个分类器又都有十几个参数...

聚类也是如此，不要根据某些指标选择聚类算法。因为如果你选择例如“最低平方和”，k-means 将获胜。不是因为它更好。但是因为它对您的评估方法更加过拟合：k-means 优化了平方和。结果在其他指标上可能很糟糕，但在 SSQ 上，它们被设计为局部最优。

数据挖掘不是你可以自动化到按钮级别的东西。

这是一项技能，需要在如何预处理、选择算法、调整参数和评估实际结果方面的经验。否则，市场上有一些软件，您只需提供数据并获得最佳分类器即可。

【讨论】：

是的，我意识到数据挖掘是一门艺术，其中大部分工作都在特征工程中。但我只想知道是否有一种方法可以自动化分类器选择过程。在过去的几个月里，我一直在手动运行 Weka，并在每次交叉验证后检查结果，并希望让它变得更容易一些。另外，如果我在做交叉验证，为什么不选择具有最高 n 倍交叉验证准确率的分类器呢？这是标准做法，对吧？ @Anony-Mousee：“数据挖掘不是你可以自动化到按钮级别的东西。”我知道你这么说只是为了保护你的工作。是的，所有统计学家也只想保住自己的工作；这就是为什么他们坚持适当的零假设检验等。而那些坚持双盲研究的医生，他们也只是想保住自己的工作。其实是一样的。

以上是关于扫一扫所有机器学习分类器？的主要内容，如果未能解决你的问题，请参考以下文章

50+篇必看2020综述论文《深度学习/机器学习/知识图谱/NLP/CV》大集合

2021综述论文《小样本/GNN/深度学习/机器学习/知识图谱/NLP/CV》大集合

机器学习算法--贝叶斯分类器

机器学习-分类器-Adaboost原理

干货书集合20+机器学习/深度学习/python开放书合集

机器学习算法--贝叶斯分类器