随机森林与Adaboost
Posted lh97-
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了随机森林与Adaboost相关的知识,希望对你有一定的参考价值。
随机森林
随机森林是集成算法的一种,是将多个决策树集成在一起通过对每棵树的结果进行表决进而组成一个强分类器的方法,可以处理分类问题及回归问题。
随机森林的构建过程:
从样本集中用采样选出N个样本;
重复执行以上两步,重复次数即为决策树个数,这些决策树组成随机森林
随机森林的随机主要表现为特征随机和样本随机。特征随机即在特征集或属性集中随机不放回的抽取M次而将特征集分为M份的过程,样本随机即在样本集中随机有放回的抽取N次,将原样本集转变为N个新样本集的过程,此方法使得每棵树的训练结果既不会因特征集重复而结果相同,也不会因为样本集无重复而结果无交集,不利于最终结果的总结。随机森林中的关键问题在于特征集的数量划分,若新特征集过少,树之间的相关性会降低,从而降低整体错误率,但单个决策树的分类能力则会减弱;反之若新特征集过多,单个决策树的分类能力提升,但树之间的相关性加大,整体错误率也提升。
随机森林的优缺点:
优点:
- 实现简单
- 多个决策树之间并行训练,提升速度
- 对缺失值不敏感
缺点:
- 可能过拟合
- 计算成本高,训练时间长
Adaboost
Adaboost是一种通过迭代,对数据集多重抽样的分类器。核心思想是用不同的分类器训练同一个数据集,最后将训练后分类器集合起来得到一个强分类器。
Adaboost通过每个分类器每次训练后的结果是否正确以及至上一个分类器为止的整体准确率赋予每个样本权重,准确率高的样本权重低,准确率低的样本由于需要用它对样本多次训练,因此在下一次训练中所占比重大,权重高。整个迭代训练过程直到错误率够小或达到规定的次数则停止。分类器之间以线性关系组合为强分类器并分别赋予权重,分类误差高的权重低,误差低的权重高。
Adaboost的优缺点:
优点:
- 可以处理连续值合离散值
- 精度高
- 解释性强
缺点:对异常值敏感,若异常值权重值高,则影响结果
区别:
随机森林与Adaboost都是由若干弱分类器集成的强分类器,相同之处在于都对样本进行随机选取且训练多个决策树,不同之处在于Adaboost对于错误率较高的样本进行着重训练,且最终结果按照线性关系,每个弱分类器加权投票得出结果,而随机森林则汇总每个分类器的结果,少数服从多数得出结果
以上是关于随机森林与Adaboost的主要内容,如果未能解决你的问题,请参考以下文章