为什么决策树相关的算法不需要标准化?那么那些模型需要标准化那?

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为什么决策树相关的算法不需要标准化?那么那些模型需要标准化那?相关的知识,希望对你有一定的参考价值。

为什么决策树相关的算法不需要标准化?那么那些模型需要标准化那?

基于树的算法,如决策树(Decision Tree)、随机森林(Random Forest)和GBDT,xgboost等,对变量的大小不敏感。因此,在拟合这类模型之前,不需要进行标准化。

以决策树使用信息熵进行特征区间的划分为例,对于特征的划分只能信息熵的变化有关,而和特征的本身的大小无关,即只和特征对于模型分类或者回归的确定性的能力有关,而和特征本身数值的幅度无关;

也就是说,因为数值缩放不会影响分裂点位置,对树模型的结构不造成影响。

树生长,按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且,树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。

既然树形结构不需要标准化,那为何非树形结构比如线性模型则需要标准化呢?

对于基于距离的模型,标准化是为了防止更大范围的

以上是关于为什么决策树相关的算法不需要标准化?那么那些模型需要标准化那?的主要内容,如果未能解决你的问题,请参考以下文章

决策树算法原理

机器学习之决策树

机器学习中---分类模型--决策树模型

机器学习-------决策树算法

在决策树类相关算法中,一个接点的基尼系数通常是大于还是小于他的父节点?是总是大于还是总是小于?

机器学习中的算法——决策树模型组合之随机森林与GBDT