树模型与集成学习(task6)梯度提升树GBDT+LR
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了树模型与集成学习(task6)梯度提升树GBDT+LR相关的知识,希望对你有一定的参考价值。
学习总结
(1)不同问题的提升树学习算法,主要区别在于使用的损失函数不同,如用平方误差损失函数的回归问题、用指数损失函数的分类问题、用一般损失函数的一般决策问题等。
(2)不管是二分类问题的提升树,还是回归问题的提升树,这里的损失函数都很方便:前者是用指数损失函数,所以可以当做是Adaboost的个例,Aadaboost的流程;而后者是当使用平方误差损失时,可以直接拟合残差。
而使用不同的损失函数,对应的凸优化问题不同,现在我们希望找到一个通用的方式,求解一般性凸优化问题——GBDT就是用来解决该问题(大体过程如上图)。
由于GBDT是利用残差训练的(用负梯度去拟合残差),在预测的过程中,我们也需要把所有树的预测值加起来,得到最终的预测结果。
(3)我们把以决策树为基础的一系列模型统称为树模型,也是 AI 比赛中最常用的模型。
- 决策树经历了三次改进,ID3、C4.5、CART,主要区别在于一个根据信息增益划分特征、一个根据信息增益率、一个根据基尼指数。
- 随机森林=决策树+Bagging集成学习
- GBDT=决策树+AdaBoost集成学习
- XGB是陈天奇2014年提出,相当于GBDT的工程改进版,在实用性和准确度上有很大提升。比如:使用泰勒二阶展开近似损失函数,支持处理缺失值、在特性粒度上并行计算等等特性。
(4)Gradient Boosting是Boosting中的一大类算法,基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加 的形式结合到现有模型中。在每 一轮迭代中,首先计算出当前模型在所有样本上的负梯度,然后以该值为目标训练一个新的弱分类器进行拟合并计算出该弱分类器的权重,最终实现对模型的更新。
文章目录
- 学习总结
- 一、GBDT+LR简介
- 二、逻辑回归模型
- 三、GBDT模型
- 3.1 初始化GBDT
- 3.2 循环生成决策树
- 1. 计算负梯度得到残差
- 2. 使用回归树来拟合
- 3. 对于每个叶子节点, 计算最佳残差拟合值
- 4. 更新模型
- 四、GBDT+LR模型
- 4.1 训练阶段
- 4.2 预测阶段
- 4.3 几个关键点
- 五、用于回归时的GBDT
- 5.1 函数空间的优化问题
- 5.2 调节学习率环节过拟合
- 5.3 另一角度:转换损失函数
- 六、用于分类时的GBDT
- 6.1 GBDT拟合的对象和流程
- (1)将次拟合减少至次拟合
- (2)求出负梯度
- (3)初始化
- 6.2 单调约束(Monotonic Constraints)
- 七、作业
- 7.1 GBDT和梯度下降的联系
- 7.2 GBDT用于分类问题的算法流程。
- 7.3 为什么使用集成的决策树? 为什么使用GBDT构建决策树而不是随机森林?
- 7.4 面对高维稀疏类特征的时候(比如ID类特征), 逻辑回归一般要比GBDT这种非线性模型好, 为什么
- 7.5 实现GBDT的分类树
- 7.6 实现GBDT的回归树
- 7.7 GBDT的优缺点
- (1)优点
- (2)缺点
- 7.8 GBDT多分类
- Reference
一、GBDT+LR简介
协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。
2014年由Facebook提出的GBDT+LR模型, 该模型利用GBDT自动进行特征筛选和组合, 进而生成新的离散特征向量, 再把该特征向量当做LR模型的输入, 来产生最后的预测结果, 该模型能够综合利用用户、物品和上下文等多种不同的特征, 生成较为全面的推荐结果, 在CTR点击率预估场景下使用较为广泛。
二、逻辑回归模型
逻辑回归模型非常重要, 在推荐领域里面, 相比于传统的协同过滤, 逻辑回归模型能够综合利用用户、物品、上下文等多种不同的特征生成较为“全面”的推荐结果, 关于逻辑回归的更多细节, 可以参考下面给出的链接,这里只介绍比较重要的一些细节和在推荐中的应用。
逻辑回归是在线性回归的基础上加了一个 Sigmoid 函数(非线形)映射,使得逻辑回归成为了一个优秀的分类算法, 学习逻辑回归模型, 首先应该记住一句话:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。
相比于协同过滤和矩阵分解利用用户的物品“相似度”进行推荐, 逻辑回归模型将问题看成了一个分类问题, 通过预测正样本的概率对物品进行排序。这里的正样本可以是用户“点击”了某个商品或者“观看”了某个视频, 均是推荐系统希望用户产生的“正反馈”行为, 因此逻辑回归模型将推荐问题转化成了一个点击率预估问题。而点击率预测就是一个典型的二分类, 正好适合逻辑回归进行处理, 那么逻辑回归是如何做推荐的呢? 过程如下:
- 将用户年龄、性别、物品属性、物品描述、当前时间、当前地点等特征转成数值型向量
- 确定逻辑回归的优化目标,比如把点击率预测转换成二分类问题, 这样就可以得到分类问题常用的损失作为目标, 训练模型
- 在预测的时候, 将特征向量输入模型产生预测, 得到用户“点击”物品的概率
- 利用点击概率对候选物品排序, 得到推荐列表
推断过程可以用下图来表示:
这里的关键就是每个特征的权重参数, 我们一般是使用梯度下降的方式, 首先会先随机初始化参数, 然后将特征向量(也就是我们上面数值化出来的特征)输入到模型, 就会通过计算得到模型的预测概率, 然后通过对目标函数求导得到每个的梯度, 然后进行更新
这里的目标函数长下面这样:
求导之后的方式长这样:
这样通过若干次迭代, 就可以得到最终的了, 关于这些公式的推导,可以参考下面给出的文章链接, 下面我们分析一下逻辑回归模型的优缺点。
优点:
- LR模型形式简单,可解释性好,从特征的权重可以看到不同的特征对最后结果的影响。
- 训练时便于并行化,在预测时只需要对特征进行线性加权,所以性能比较好,往往适合处理海量id类特征,用id类特征有一个很重要的好处,就是防止信息损失(相对于范化的 CTR 特征),对于头部资源会有更细致的描述
- 资源占用小,尤其是内存。在实际的工程应用中只需要存储权重比较大的特征及特征对应的权重。
- 方便输出结果调整。逻辑回归可以很方便的得到最后的分类结果,因为输出的是每个样本的概率分数,我们可以很容易的对这些概率分数进行cutoff,也就是划分阈值(大于某个阈值的是一类,小于某个阈值的是一类)
当然, 逻辑回归模型也有一定的局限性
- 表达能力不强, 无法进行特征交叉, 特征筛选等一系列“高级“操作(这些工作都得人工来干, 这样就需要一定的经验, 否则会走一些弯路), 因此可能造成信息的损失
- 准确率并不是很高。因为这毕竟是一个线性模型加了个sigmoid, 形式非常的简单(非常类似线性模型),很难去拟合数据的真实分布
- 处理非线性数据较麻烦。逻辑回归在不引入其他方法的情况下,只能处理线性可分的数据, 如果想处理非线性, 首先对连续特征的处理需要先进行离散化(离散化的目的是为了引入非线性),如上文所说,人工分桶的方式会引入多种问题。
- LR 需要进行人工特征组合,这就需要开发者有非常丰富的领域经验,才能不走弯路。这样的模型迁移起来比较困难,换一个领域又需要重新进行大量的特征工程。
所以如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短LR特征实验周期,是亟需解决的问题, 而GBDT模型, 正好可以自动发现特征并进行有效组合
三、GBDT模型
GBDT全称梯度提升决策树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征, 所以这个模型依然是一个非常重要的模型。
GBDT是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的误差来达到将数据分类或者回归的算法, 其训练过程如下:
gbdt通过多轮迭代, 每轮迭代会产生一个弱分类器, 每个分类器在上一轮分类器的残差基础上进行训练。 gbdt对弱分类器的要求一般是足够简单, 并且低方差高偏差。 因为训练的过程是通过降低偏差来不断提高最终分类器的精度。 由于上述高偏差和简单的要求,每个分类回归树的深度不会很深。最终的总分类器是将每轮训练得到的弱分类器加权求和得到的(也就是加法模型)。
GBDT的伪代码
关于GBDT的详细细节,依然是可以参考下面给出的链接。这里想分析一下GBDT如何来进行二分类的,因为注意gbdt 每轮的训练是在上一轮的训练的残差基础之上进行训练的, 而这里的残差指的就是当前模型的负梯度值, 这个就要求每轮迭代的时候,弱分类器的输出的结果相减是有意义的, 而gbdt 无论用于分类还是回归一直都是使用的CART 回归树, 那么既然是回归树, 是如何进行二分类问题的呢?
GBDT 来解决二分类问题和解决回归问题的本质是一样的,都是通过不断构建决策树的方式,使预测结果一步步的接近目标值, 但是二分类问题和回归问题的损失函数是不同的, 关于GBDT在回归问题上的树的生成过程, 损失函数和迭代原理可以参考给出的链接, 回归问题中一般使用的是平方损失, 而二分类问题中, GBDT和逻辑回归一样, 使用的下面这个:
其中, 是第个样本的观测值, 取值要么是0要么是1, 而是第个样本的预测值, 取值是0-1之间的概率,由于我们知道GBDT拟合的残差是当前模型的负梯度, 那么我们就需要求出这个模型的导数, 即, 对于某个特定的样本, 求导的话就可以只考虑它本身, 去掉加和号, 那么就变成了, 其中如下:
如果对逻辑回归非常熟悉的话, 一定不会陌生吧, 这就是对几率比取了个对数, 并且在逻辑回归里面这个式子会等于, 所以才推出了的那个形式。 这里令, 即, 则上面这个式子变成了:
这时候,我们对求导, 得
这样, 我们就得到了某个训练样本在当前模型的梯度值了, 那么残差就是。
GBDT二分类的这个思想,其实和逻辑回归的思想一样,逻辑回归是用一个线性模型去拟合这个事件的对数几率, GBDT二分类也是如此, 用一系列的梯度提升树去拟合这个对数几率, 其分类模型可以表达为:
下面我们具体来看GBDT的生成过程, 构建分类GBDT的步骤有两个:
3.1 初始化GBDT
和回归问题一样, 分类 GBDT 的初始状态也只有一个叶子节点,该节点为所有样本的初始预测值,如下:
上式里面, 代表GBDT模型, 是模型的初识状态, 该式子的意思是找到一个,使所有样本的 Loss 最小,在这里及下文中,都表示节点的输出,即叶子节点, 且它是一个 形式的值(回归值),在初始状态,。
下面看例子(该例子来自下面的第二个链接), 假设我们有下面3条样本:
我们希望构建 GBDT 分类树,它能通过「喜欢爆米花」、「年龄」和「颜色偏好」这 3 个特征来预测某一个样本是否喜欢看电影。 我们把数据代入上面的公式中求Loss:
为了令其最小, 我们求导, 且让导数为0, 则:
于是, 就得到了初始值, 模型的初识状态
3.2 循环生成决策树
回忆一下回归树的生成步骤, 其实有4小步, 第一就是计算负梯度值得到残差, 第二步是用回归树拟合残差, 第三步是计算叶子节点的输出值, 第四步是更新模型。 下面我们一一来看:
1. 计算负梯度得到残差
此处使用棵树的模型, 计算每个样本的残差, 就是上面的, 于是例子中, 每个样本的残差:
2. 使用回归树来拟合 r i m r_im rim
这里的表示样本,回归树的建立过程可以参考下面的链接文章,简单的说就是遍历每个特征, 每个特征下遍历每个取值, 计算分裂后两组数据的平方损失, 找到最小的那个划分节点。 假如我们产生的第2棵决策树如下:
3. 对于每个叶子节点 j j j, 计算最佳残差拟合值
就是在刚构建的树中, 找到每个节点的输出, 能使得该节点的loss最小。 那么我们看一下这个的求解方式, 这里非常的巧妙。 首先, 我们把损失函数写出来, 对于左边的第一个样本, 有
这个式子就是上面推导的, 因为我们要用回归树做分类, 所以这里把分类的预测概率转换成了对数几率回归的形式, 即, 这个就是模型的回归输出值。而如果求这个损失的最小值, 我们要求导, 解出令损失最小的。 但是上面这个式子求导会很麻烦, 所以这里介绍了一个技巧就是使用二阶泰勒公式来近似表示该式, 再求导, 伟大的泰勒:
这里就相当于把当做常量, 作为变量, 将二阶展开:
这时候再求导就简单了
Loss最小的时候, 上面的式子等于0, 就可以得到:
因为分子就是残差(上述已经求到了), 分母可以通过对残差求导,得到原损失函数的二阶导:
这时候, 就可以算出该节点的输出:
这里的下面表示第棵树的第个叶子节点。 接下来是右边节点的输出, 包含样本2和样本3, 同样使用二阶泰勒公式展开:
求导, 令其结果为0,就会得到, 第1棵树的第2个叶子节点的输出:
可以看出, 对于任意叶子节点, 我们可以直接计算其输出值:
4. 更新模型 F m ( x ) F_m(x) Fm(x)
这样, 通过多次循环迭代, 就可以得到一个比较强的学习器
下面分析一下GBDT的优缺点:
我们可以把树的生成过程理解成自动进行多维度的特征组合的过程,从根结点到叶子节点上的整个路径(多个特征值判断),才能最终决定一棵树的预测值, 另外,对于连续型特征的处理,GBDT 可以拆分出一个临界阈值,比如大于 0.027 走左子树,小于等于 0.027(或者 default 值)走右子树,这样很好的规避了人工离散化的问题。这样就非常轻松的解决了逻辑回归那里自动发现特征并进行有效组合的问题, 这也是GBDT的优势所在。
但是GBDT也会有一些局限性, 对于海量的 id 类特征,GBDT 由于树的深度和棵树限制(防止过拟合),不能有效的存储;另外海量特征在也会存在性能瓶颈,当 GBDT 的 one hot 特征大于 10 万维时,就必须做分布式的训练才能保证不爆内存。所以 GBDT 通常配合少量的反馈 CTR 特征来表达,这样虽然具有一定的范化能力,但是同时会有信息损失,对于头部资源不能有效的表达。
所以, 我们发现其实GBDT和LR的优缺点可以进行互补。
四、GBDT+LR模型
2014年, Facebook提出了一种利用GBDT自动进行特征筛选和组合, 进而生成新的离散特征向量, 再把该特征向量当做LR模型的输入, 来产生最后的预测结果, 这就是著名的GBDT+LR模型了。GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测当给用户推送的广告会不会被用户点击(二分类问题)。
有了上面的铺垫, 这个模型解释起来就比较容易了, 模型的总体结构长下面这样:
4.1 训练阶段
训练时,GBDT 建树的过程相当于自动进行的特征组合和离散化,然后从根结点到叶子节点的这条路径就可以看成是不同特征进行的特征组合,用叶子节点可以唯一的表示这条路径,并作为一个离散特征传入 LR 进行二次训练。
比如上图中, 有两棵树,x为一条输入样本,遍历两棵树后,x样本分别落到两颗树的叶子节点上,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR特征。构造的新特征向量是取值0/1的。 比如左树有三个叶子节点,右树有两个叶子节点,最终的特征即为五维的向量。对于输入x,假设他落在左树第二个节点,编码[0,1,0],落在右树第二个节点则编码[0,1],所以整体的编码为[0,1,0,0,1],这类编码作为特征,输入到线性分类模型(LR or FM)中进行分类。
4.2 预测阶段
预测时,会先走 GBDT 的每棵树,得到某个叶子节点对应的一个离散特征(即一组特征组合),然后把该特征以 one-hot 形式传入 LR 进行线性加权预测。
4.3 几个关键点
- 通过GBDT进行特征组合之后得到的离散向量是和训练数据的原特征一块作为逻辑回归的输入, 而不仅仅全是这种离散特征
- 建树的时候用ensemble建树的原因就是一棵树的表达能力很弱,不足以表达多个有区分性的特征组合,多棵树的表达能力更强一些。GBDT每棵树都在学习前面棵树尚存的不足,迭代多少次就会生成多少棵树。
- RF也是多棵树,但从效果上有实践证明不如GBDT。且GBDT前面的树,特征分裂主要体现对多数样本有区分度的特征;后面的树,主要体现的是经过前N颗树,残差仍然较大的少数样本。优先选用在整体上有区分度的特征,再选用针对少数样本有区分度的特征,思路更加合理,这应该也是用GBDT的原因。
- 在CRT预估中, GBDT一般会建立两类树(非ID特征建一类, ID类特征建一类), AD,ID类特征在CTR预估中是非常重要的特征,直接将AD,ID作为feature进行建树不可行,故考虑为每个AD,ID建GBDT树。
- 非ID类树:不以细粒度的ID建树,此类树作为base,即便曝光少的广告、广告主,仍可以通过此类树得到有区分性的特征、特征组合
- ID类树:以细粒度 的ID建一类树,用于发现曝光充分的ID对应有区分性的特征、特征组合
五、用于回归时的GBDT
DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。
模型的结果是一组回归分类树组合(CART Tree Ensemble): T1,…, Tk 。其中 Tj 学习的是之前 (j - 1) 棵树预测结果的残差。
这种思想就像准备考试前的复习,先做一遍习题册,然后把做错的题目挑出来,在做一次,然后把做错的题目挑出来在做一次,经过反复多轮训练,取得最好的成绩。
5.1 函数空间的优化问题
数据集:设数据集为,模型的损失函数为、
目标:利用多棵回归决策树来进行模型集成:设第轮时,已知前轮中对第个样本的集成输出为,则本轮的集成输出为
其中,是使得当前轮损失达到最小的决策树模型。
【练习】对于均方损失函数和绝对值损失函数,请分别求出模型的初始预测。
特别地,当时,。
记第轮的损失函数为
令上述损失最小化不同于一般的参数优化问题,我们需要优化的并不是某一组参数,而是要在所有决策树模型组成的函数空间中,找到一个使得最小。因此我们不妨这样思考:学习一个决策树模型等价于对数据集进行拟合,设以上是关于树模型与集成学习(task6)梯度提升树GBDT+LR的主要内容,如果未能解决你的问题,请参考以下文章
机器学习集成学习(Boosting)——梯度提升树(GBDT)算法(理论+图解+公式推导)