扫一扫所有机器学习分类器?
Posted
技术标签:
【中文标题】扫一扫所有机器学习分类器?【英文标题】:Sweep through all machine learning classifiers? 【发布时间】:2013-10-20 00:56:18 【问题描述】:我正在使用 Weka 对一些大型数据集执行分类、聚类和一些回归。我目前正在尝试所有分类器(决策树、SVM、朴素贝叶斯等)。
有没有办法(在 Weka 或其他机器学习工具包中)扫描所有可用的分类器算法,以找到产生最佳交叉验证准确度或其他指标的算法?
我也想为我的其他聚类问题找到最佳聚类算法;也许找到最小的平方和误差?
【问题讨论】:
您已经试用过 WEKA-Experimenter 了吗?它允许使用许多分类器并将结果与统计测试进行比较。 【参考方案1】:这不是某种过度拟合吗?尝试大量分类器,然后选择最好的?
还要注意,预处理通常很重要,不同的分类器可能需要不同的预处理;每个分类器又都有十几个参数...
聚类也是如此,不要根据某些指标选择聚类算法。因为如果你选择例如“最低平方和”,k-means 将获胜。不是因为它更好。但是因为它对您的评估方法更加过拟合:k-means 优化了平方和。结果在其他指标上可能很糟糕,但在 SSQ 上,它们被设计为局部最优。
数据挖掘不是你可以自动化到按钮级别的东西。
这是一项技能,需要在如何预处理、选择算法、调整参数和评估实际结果方面的经验。否则,市场上有一些软件,您只需提供数据并获得最佳分类器即可。
【讨论】:
是的,我意识到数据挖掘是一门艺术,其中大部分工作都在特征工程中。但我只想知道是否有一种方法可以自动化分类器选择过程。在过去的几个月里,我一直在手动运行 Weka,并在每次交叉验证后检查结果,并希望让它变得更容易一些。 另外,如果我在做交叉验证,为什么不选择具有最高 n 倍交叉验证准确率的分类器呢?这是标准做法,对吧? @Anony-Mousee:“数据挖掘不是你可以自动化到按钮级别的东西。”我知道你这么说只是为了保护你的工作。 是的,所有统计学家也只想保住自己的工作;这就是为什么他们坚持适当的零假设检验等。而那些坚持双盲研究的医生,他们也只是想保住自己的工作。其实是一样的。以上是关于扫一扫所有机器学习分类器?的主要内容,如果未能解决你的问题,请参考以下文章
50+篇必看2020综述论文《深度学习/机器学习/知识图谱/NLP/CV》大集合