大型数据集最快的分类算法是啥? [关闭]
Posted
技术标签:
【中文标题】大型数据集最快的分类算法是啥? [关闭]【英文标题】:What is the fastest classification algorithm for large datasets? [closed]大型数据集最快的分类算法是什么? [关闭] 【发布时间】:2018-04-02 15:10:09 【问题描述】:最快的分类算法是什么?
如果我有一个非常大的数据集和非常多的特征,我需要在大约一个小时内对其进行分类。
最快的分类算法是什么?
【问题讨论】:
我认为贝叶斯分类器在时间上会是一个很好的分类器。如果没有实际数据,我无法确定准确性 1):DataSET
的[m-examples,n-features]
维度是多少? 2):您有多少计算资源容量可用于满足设定目标R [TB]
RAM @ fR [MHz]
,在H [1]
计算节点中,总共有 P [1]
CPU-cores,运行 @ fC [GHz]
CPU-core 时钟频率。 3):您的工程团队有哪些可用的能力EW [Man-Days]
来微调处理性能以实现您的既定目标?
@user3666197 1) 非常大的数据集和非常多的特征。 2)我根本不知道那些东西。 3) 我独自工作,没有工程团队。
但是,您所说的数量级是多少? 1): 1E+03, 1E+06, 1E+09 特征? 1E+06、1E+09、1E+12 例子? 要具体和量化,这很重要,好吗?
采取极端情况是我感兴趣的,所以让我们以 1E+09 特征和 1E+12 示例为例。
【参考方案1】:
最快的分类算法是什么?
这取决于数据的性质、大小和维度。
此外,这取决于您想要在速度和准确性之间取得的平衡。
没有适用于所有情况的单一最佳算法。
【讨论】:
恕我直言,在他/她回应上述澄清请求 1) + 2) 之前,您怎么知道 O/P 问题与 BigData 相关?猜测不是负责任的问题方法的标志,是吗? 你的意思是关于标签?是的,我应该删除它。 我了解准确性和速度之间的权衡,在给定的情况下,我需要关注速度而不是准确性。我有非常大的数据和特征集。 @Arthurim Arthurim,恕我直言,仅关注速度会在 Dilbert 类型的预测器中渐进地产生结果。 最终最快的预测器是 [CTIME,CSPACE]-Dilbert >>> i.pinimg.com/originals/cc/3d/66/…。 准确度是衡量标准,而不是速度(在回归型预测的宽容度较低)。分类器允许进行抽奖以获得最小错误的结果,而回归器可以更好地向您展示实际不准确的真相的赤裸裸的规模,并得到一个尖锐的警告 是的,明白了。但是从标准模型来看:决策树、SVM、逻辑回归、线性回归、朴素贝叶斯分类器,哪一个是最好的权衡?以上是关于大型数据集最快的分类算法是啥? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章
Matlab基于朴素贝叶斯算法实现多分类预测(源码可直接替换数据)