哪种机器学习算法更适合这种情况
Posted
技术标签:
【中文标题】哪种机器学习算法更适合这种情况【英文标题】:what machine learning algorithm could be better for this scenario 【发布时间】:2018-09-22 23:52:51 【问题描述】:我有一个由大约 1500 万个观察值组成的数据集,其中大约 3% 来自兴趣类。我可以在 pc 中训练模型,但我需要在树莓派 pi3 中实现分类器。由于覆盆子的内存如此有限,什么算法代表它的负载最小?
附加信息:数据集很难区分。例如,无论是架构还是激活函数,ANN 都无法超过兴趣类别 80% 的检测率。随机森林已经展示了出色的性能,但所需的树和节点的数量对于在微控制器上实现是不可行的。
提前谢谢你。
【问题讨论】:
主要问题是关于您正在寻找的性能是什么? 【参考方案1】:您可能会在随机森林方法中修剪树,以便平衡分类器性能与内存/处理能力要求。
另外,我怀疑您的训练/测试集非常不平衡,所以我想知道您是否使用了在这种情况下建议的任何方法(例如 SMOTE、ADASYN 等)。如果是 python,我强烈建议查看 imbalanced-learn
库。使用这种方法可以减少分类器的大小,并具有可接受的良好性能,您将能够适合在目标设备上运行。
最后但同样重要的是,这个问题可以很容易地转到Cross Validated 或Data Science 网站。
【讨论】:
是否可以用树莓派中的 1GB 内存实现随机森林(仅限分类)? 如果您觉得有用,请点赞/标记答案吗?以上是关于哪种机器学习算法更适合这种情况的主要内容,如果未能解决你的问题,请参考以下文章