哪种机器学习算法更适合这种情况

Posted

技术标签:

【中文标题】哪种机器学习算法更适合这种情况【英文标题】:what machine learning algorithm could be better for this scenario 【发布时间】:2018-09-22 23:52:51 【问题描述】:

我有一个由大约 1500 万个观察值组成的数据集,其中大约 3% 来自兴趣类。我可以在 pc 中训练模型,但我需要在树莓派 pi3 中实现分类器。由于覆盆子的内存如此有限,什么算法代表它的负载最小?

附加信息:数据集很难区分。例如,无论是架构还是激活函数,ANN 都无法超过兴趣类别 80% 的检测率。随机森林已经展示了出色的性能,但所需的树和节点的数量对于在微控制器上实现是不可行的。

提前谢谢你。

【问题讨论】:

主要问题是关于您正在寻找的性能是什么? 【参考方案1】:

您可能会在随机森林方法中修剪树,以便平衡分类器性能与内存/处理能力要求。

另外,我怀疑您的训练/测试集非常不平衡,所以我想知道您是否使用了在这种情况下建议的任何方法(例如 SMOTE、ADASYN 等)。如果是 python,我强烈建议查看 imbalanced-learn 库。使用这种方法可以减少分类器的大小,并具有可接受的良好性能,您将能够适合在目标设备上运行。

最后但同样重要的是,这个问题可以很容易地转到Cross Validated 或Data Science 网站。

【讨论】:

是否可以用树莓派中的 1GB 内存实现随机森林(仅限分类)? 如果您觉得有用,请点赞/标记答案吗?

以上是关于哪种机器学习算法更适合这种情况的主要内容,如果未能解决你的问题,请参考以下文章

决定使用哪种机器学习算法

给定问题使用哪种机器学习算法

如何选择 Microsoft Azure 机器学习的算法

机器学习系统设计

探索五大机器学习技术及其应用

Andrew Ng机器学习(零):什么是机器学习