mahout 随机森林RF算法

Posted energy1010

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了mahout 随机森林RF算法相关的知识,希望对你有一定的参考价值。

在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性

能解决分类与回归问题,并且都有很好的估计表现

1.生成数据说明文件

mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生成数据的说明文件)

2.训练模型

mahout buildforest -d input.csv -ds input.info -sl 5 -p -t 5 -o forest_result(生成随机森林模型结果)

3.测试

Mahout testforest  -i input.csv -ds input.info -m forest_result -a -o predictions

 -a 运行后在命令行界面可以看到分析结果,包括准确率等信息

-d:数据路径

-ds:数据集

-sl:选取每个子节点应该具备的训练变量个数,对于regresstion问题默认为全部变量的三分之一

-nc:可选的,树不互补

-ms:可选的,如果分支数据大小小于此值(默认为2),则树不分离。

-mp:可选的,如果分支数据的方差的比例小于这个值,则树不分离。(In the case of a regression problem, this value is used. The default

is 1/1000(0.001).)

-sd:可选的,种子值,用来初始化随机数发生器。

-p:使用部分数据实现

-t:设置共多少棵树

-o:输出路径,包含决策森林模型

以上是关于mahout 随机森林RF算法的主要内容,如果未能解决你的问题,请参考以下文章

随机森林(RF)的原理

Kaggle 快速模型之 Random Forrest 随机森林

回归预测 | MATLAB实现PSO-RF粒子群算法优化随机森林多输入单输出回归预测

将 mahout 随机森林分类输出转换为可读

如何在实际项目中使用 mahout 随机森林?

RF分类基于matlab随机森林算法数据分类含Matlab源码 2048期