spark 随机森林 源码解析

Posted shiter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 随机森林 源码解析相关的知识,希望对你有一定的参考价值。

文章大纲


随机森林算法

树相关的基础知识:


源代码

spark 随机森林的训练步骤

具体的训练步骤如下:
1.将每个树模型的根节点取出,加入栈中
2.将k个节点从栈中取出,组成一个训练集合group,k值由内存限制决定,确定特征采样
3.从各分区上计算并汇合分布信息,并计算待切分节点的最优切分点
4.根据切分点生成新的叶子节点,并更新nodeIdCache
5.若新生成的叶子节点没有达到最小不纯度限制和最小样本数量的限制,则入栈
6.若栈非空 goto 2.
7.剪枝合并多余节点,结束

private

以上是关于spark 随机森林 源码解析的主要内容,如果未能解决你的问题,请参考以下文章

带有随机森林的 Spark 流程数据框

Spark 随机森林交叉验证错误

spark 随机森林算法案例实战

Spark Random Forest classifier 随机森林分类

Spark MLlib 随机森林训练中可以使用样本权重吗?

Apache Spark 随机森林性能缓慢