随机森林_理论
Posted hapyygril
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了随机森林_理论相关的知识,希望对你有一定的参考价值。
理论: 从样本集(N个数据点)选出n个样本(有放回)建立分类器
重复m次,获得m个分类器
过程:
1. 样本的随机:从N个数据点中随机选择n个样本
2. 属性的随机:从所有属性中随机选择k个属性
3. 重复m次,,建立m颗决策树
4. m棵决策树形成随机森林,投票决定结果
参数:
n_estimators=10, //棵树
max_depth=None, //最大深度
max_features =auto//最大属性 max_features=sqrt(n_features).
min_samples_leaf=1, //最少分裂样本数
优点:
随机性的引入,不容易过拟合
随机性的引入,有很好的的抗噪声能力
高维度的数据,不用做特征选择
处理离散型,连续性,不用做特征规范
缺点:
决策树个数很多时,时间和空间会很大
对于属性值很多的字段,会对模型产生很大的影响
以上是关于随机森林_理论的主要内容,如果未能解决你的问题,请参考以下文章
Kaggle 快速模型之 Random Forrest 随机森林
机器学习集成学习(Bagging)——随机森林(RandomForest)(理论+图解+公式推导)
病害识别基于matlab随机森林苹果病害识别含Matlab源码 2211期