集成学习注意要点

Posted 2020-10-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了集成学习注意要点相关的知识，希望对你有一定的参考价值。

集成学习是一种机器学习的框架，它会创建多个子模型，通过集成这些子模型的预测结果共同提升学习效果。
集成学习主要分为三种类型：bagging、boosting和stacking。
集成学习中Bagging方法是将训练集自动抽样，产生出用于构建子模型的子训练集，再进行综合打分得到最终结果。
集成学习中的boosting方法是按照顺序构建子模型，每训练下一个子模型之前，需对上一个子模型预测的结果进行一定的融合变换，以保证后一次训练能够给整体学习效果带来提升，最终的预测结果是通过一定权重值将各个子模型线性组合后得到。
集成学习中的stacking方法，是对每个子模型进行训练，并将各个子模型预测的结果作为新的特征，对新特征组成的训练集重新构建模型，最终的预测结果由此得到。
集成学习的bagging方法，典型算法是随机森林。
集成学习中boosting方法，性能最优的框架是XGBOOST.
GBDT是通过boosting方法构造一组子模型，与传统回归模型相比，有点主要有：
不需要对特征进行归一化或标准化处；能够自动进行特征选择；可以分布式并行计算。
XGBOOST框架是对GBDT的优化设计，它的优点主要有
1. 可以分布式计算，速度极快
2. 可移植，对代码要求低
3. 可容错，节点故障不影响计算过程和结果导出

以上是关于集成学习注意要点的主要内容，如果未能解决你的问题，请参考以下文章