Spark MLlib 随机森林训练中可以使用样本权重吗?
Posted
技术标签:
【中文标题】Spark MLlib 随机森林训练中可以使用样本权重吗?【英文标题】:Can sample weight be used in Spark MLlib Random Forest training? 【发布时间】:2016-06-27 05:47:30 【问题描述】:我正在使用 Spark 1.5.0 MLlib 随机森林算法(Scala 代码)进行二分类。由于我使用的数据集高度不平衡,因此多数类以 10% 的采样率进行下采样。
是否可以在 Spark 随机森林训练中使用采样权重(本例中为 10)?我没有看到随机森林中trainClassifier()
的输入参数的权重。
【问题讨论】:
【参考方案1】:在 Spark 1.5 中根本没有,在 Spark 1.6 中只是部分(逻辑/线性回归)
https://issues.apache.org/jira/browse/SPARK-7685
这是跟踪所有子任务的伞形 JIRA
https://issues.apache.org/jira/browse/SPARK-9610
【讨论】:
以上是关于Spark MLlib 随机森林训练中可以使用样本权重吗?的主要内容,如果未能解决你的问题,请参考以下文章
Spark-Mllib中各分类算法的java实现(简易教程)
如何使用 pySpark 决定将 numClasses 参数传递给 SPark MLlib 中的随机森林算法