随机森林和adaboost的区别

Posted 2020-11-26 lvhongwi

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了随机森林和adaboost的区别相关的知识，希望对你有一定的参考价值。

1.随机森林：

　　　在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。在Bagging策略的基础上进行修改后的一种算法。

2.随机森林的特点

　　　从样本集中用Bootstrap采样选出n个样本；

　　　从所有属性中随机选择K个属性，选择出最佳分割属性作为节点创建决策树；

　　　重复以上两步m次，即建立m棵决策树；

　　　这m个决策树形成随机森林，通过投票表决结果决定数据属于那一类

3.随机森林的优缺点

　　优点：

　　　1. 训练可以并行化，对于大规模样本的训练具有速度的优势；

　　　2. 由于进行随机选择决策树划分特征列表，这样在样本维度比较高的时候，仍然具有比较高的训练性能；

　　　3. 给以给出各个特征的重要性列表；

　　　4. 由于存在随机抽样，训练出来的模型方差小，泛化能力强；

　　　 5. RF实现简单；

　　　 6. 对于部分特征的缺失不敏感。

　　缺点：

　　　 1. 在某些噪音比较大的特征上，RF模型容易陷入过拟合；

　　　 2. 取值比较多的划分特征对RF的决策会产生更大的影响，从而有可能影响模型的效果

4.Adaboost算法

　　　 Adaptive Boosting是一种迭代算法。每轮迭代中会在训练集上产生一个新的学习器，然后使用该学习器对所有样本进行预测，以评估每个样本的重要性 (Informative)。换句话来讲就是，算法会为每个样本赋予一个权重，每次用

　　训练好的学习器标注/预测各个样本，如果某个样本点被预测的越正确，则将其权重降低；否则提高样本的权重。权重越高的样本在下一个迭代训练中所占的比重就越大，也就是说越难区分的样本在训练过程中会变得越重要；
　整个迭代过程直到错误率足够小或者达到一定的迭代次数为止

5.Adaboost算法的优缺点：

　　优点：

　　　可以处理连续值和离散值；模型的鲁棒性比较强；解释强，结构简单。

　　缺点：

　　　对异常样本敏感，异常样本可能会在迭代过程中获得较高的权重值，最终影响模型效果

6.二者的区别

　　　adaboost：

　　　　　提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。

　　　　　加权多数表决的方法，加大分类误差率小的弱分类器的权值，使其在表决中起较大作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。

　　　随机森林：

　　　　　训练样本选取随机。虽然每一棵树的训练样本个数都是样本总数N，但是每一个样本的随机选取都是有放回的选取。这样，每一颗树的训练样本几乎都不相同。

　　　　　特征选取随机。假设训练数据有M个特征，随机森林的每一颗树只选取m（m< M）个特征用于构建决策树。每一颗树选取的特征可能都不完全相同。

以上是关于随机森林和adaboost的区别的主要内容，如果未能解决你的问题，请参考以下文章