机器学习中GBDT和XGBoosts的区别是?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习中GBDT和XGBoosts的区别是?相关的知识,希望对你有一定的参考价值。

首先来了解一下boosting思想,每次训练单个弱分类器时,都将上一次分错的数据权重提高一点再进行当前单个弱分类器的学习,这样往后执行,训练出来的单个弱分类器就会越在意那些容易分错的点,最终通过加权求和的方式组合成一个最终的学习器,gradent boosting 是boosting的一种,每一次构建单个学习器时,是在之前建立的模型的损失函数的梯度下降方向, GB与Adaboost的区别在于:
AdaBoost是通过提升错分数据点的权重来定位模型的不足。
Gradient Boosting是通过算梯度(gradient)来定位模型的不足。
主要思想是,每一次建立单个学习器时,是在之前建立的模型的损失函数的梯度下降方向,损失函数越大,说明模型越容易出错,如果我们的模型能够让损失函数持续的下降,则说明我们的模型在不停的改进,而最好的方式就是让损失函数在其梯度方向上下降。
GBDT=GB+DT(decision tree),即基分类器为决策树时,这里的决策树是回归树。
Xgboost 是GB算法的高效实现,其中基分类器除了可以使CART也可以是线性分类器。
几大区别:
传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯帝回归或者线性回归
传统GBDT在优化时只用到了一阶导数,而xgboost对代价函数进行了二阶泰勒展开,用到了一阶和二阶导数
xgboost加入了正则项,防止过拟合
shrinkage,相当于学习率,在每完成一次迭代后,会乘上这个系数,削减每棵树的影响
列抽样,借鉴随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算。
参考技术A 蓝海大脑机器学习GPU工作站研究人员表示:
1、GBDT是机器学习算法,XGBoost是该算法的一种工程实现
2、XGBoost在使用CART作为基学习器时,加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力
3、GBDT在模型训练时只使用了损失函数的一阶导数信息,XGBoost对损失函数进行二阶泰勒展开,可以同时使用一阶和二阶导数
4、XGBoost支持自定义损失函数,增强了模型的扩展性
5、传统的GBDT采用CART作为基学习器(也叫基分类器),XGBoost支持多种类型的基学习器,包括树模型(gbtree和dart,dart为一种引入dropout的树模型)和线性模型(gblinear),默认为gbtree
6、传统的GBDT在每轮迭代时使用全部的数据,XGBoost支持对数据进列采样,即特征采样,有利于防止过拟合,同时可以减少计算量,提高训练的效率
7、传统的GBDT不能支持缺失值的处理(必须填充),XGBoost支持缺失值的处理,能够自动学习出缺失值的分裂方向(无需填充)

以上是关于机器学习中GBDT和XGBoosts的区别是?的主要内容,如果未能解决你的问题,请参考以下文章

机器学习算法中 GBDT 和 XGBOOST 的区别有哪些?

机器学习算法中 GBDT 和 XGBOOST 的区别有哪些?

机器学习GBDT 和 决策森林 的区别?(面试回答)

机器学习——GBDT算法与stacking算法

机器学习 | GBDT

机器学习 | GBDT