随机森林_理论

Posted hapyygril

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了随机森林_理论相关的知识,希望对你有一定的参考价值。

理论: 从样本集(N个数据点)选出n个样本(有放回)建立分类器

            重复m次,获得m个分类器

过程:

        1. 样本的随机:从N个数据点中随机选择n个样本

        2. 属性的随机:从所有属性中随机选择k个属性

        3. 重复m次,,建立m颗决策树

        4. m棵决策树形成随机森林,投票决定结果

参数:

         
           n_estimators=10, //棵树
           max_depth=None, //最大深度

           max_features =auto//最大属性 max_features=sqrt(n_features).

           min_samples_leaf=1, //最少分裂样本数


优点:  

        随机性的引入,不容易过拟合

        随机性的引入,有很好的的抗噪声能力

       高维度的数据,不用做特征选择

       处理离散型,连续性,不用做特征规范

 缺点:

       决策树个数很多时,时间和空间会很大

       对于属性值很多的字段,会对模型产生很大的影响

 

             






以上是关于随机森林_理论的主要内容,如果未能解决你的问题,请参考以下文章

Kaggle 快速模型之 Random Forrest 随机森林

机器学习集成学习(Bagging)——随机森林(RandomForest)(理论+图解+公式推导)

病害识别基于matlab随机森林苹果病害识别含Matlab源码 2211期

病害识别基于matlab随机森林苹果病害识别含Matlab源码 2211期

RandomForest随机森林算法

基于随机森林算法完成鸢尾花卉品种预测任务 代码+数据