Spark MLlib 随机森林训练中可以使用样本权重吗?

Posted

技术标签:

【中文标题】Spark MLlib 随机森林训练中可以使用样本权重吗?【英文标题】:Can sample weight be used in Spark MLlib Random Forest training? 【发布时间】:2016-06-27 05:47:30 【问题描述】:

我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二分类。由于我使用的数据集高度不平衡,因此多数类以 10% 的采样率进行下采样。

是否可以在 Spark 随机森林训练中使用采样权重(本例中为 10)?我没有看到随机森林中trainClassifier() 的输入参数的权重。

【问题讨论】:

【参考方案1】:

在 Spark 1.5 中根本没有,在 Spark 1.6 中只是部分(逻辑/线性回归)

https://issues.apache.org/jira/browse/SPARK-7685

这是跟踪所有子任务的伞形 JIRA

https://issues.apache.org/jira/browse/SPARK-9610

【讨论】:

以上是关于Spark MLlib 随机森林训练中可以使用样本权重吗?的主要内容,如果未能解决你的问题,请参考以下文章

Spark-Mllib中各分类算法的java实现(简易教程)

如何使用 pySpark 决定将 numClasses 参数传递给 SPark MLlib 中的随机森林算法

Spark MLlib速成宝典模型篇06随机森林Random Forests(Python版)

spark.mllib源码阅读-bagging方法

Spark,MLlib:调整分类器识别阈值

PySpark 和 MLLib:随机森林预测的类概率