哪种机器学习算法更适合这种情况

Posted 2023-03-12

技术标签:

【中文标题】哪种机器学习算法更适合这种情况【英文标题】：what machine learning algorithm could be better for this scenario 【发布时间】：2018-09-22 23:52:51 【问题描述】：

我有一个由大约 1500 万个观察值组成的数据集，其中大约 3% 来自兴趣类。我可以在 pc 中训练模型，但我需要在树莓派 pi3 中实现分类器。由于覆盆子的内存如此有限，什么算法代表它的负载最小？

附加信息：数据集很难区分。例如，无论是架构还是激活函数，ANN 都无法超过兴趣类别 80% 的检测率。随机森林已经展示了出色的性能，但所需的树和节点的数量对于在微控制器上实现是不可行的。

提前谢谢你。

【问题讨论】：

主要问题是关于您正在寻找的性能是什么？ 【参考方案1】：

您可能会在随机森林方法中修剪树，以便平衡分类器性能与内存/处理能力要求。

另外，我怀疑您的训练/测试集非常不平衡，所以我想知道您是否使用了在这种情况下建议的任何方法（例如 SMOTE、ADASYN 等）。如果是 python，我强烈建议查看 imbalanced-learn 库。使用这种方法可以减少分类器的大小，并具有可接受的良好性能，您将能够适合在目标设备上运行。

最后但同样重要的是，这个问题可以很容易地转到Cross Validated 或Data Science 网站。

【讨论】：

是否可以用树莓派中的 1GB 内存实现随机森林（仅限分类）？如果您觉得有用，请点赞/标记答案吗？

以上是关于哪种机器学习算法更适合这种情况的主要内容，如果未能解决你的问题，请参考以下文章