机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)相关的知识,希望对你有一定的参考价值。
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)
在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling)。进行缩放后,多维特征将具有相近的尺度,这将帮助梯度下降算法更快地收敛。
你的预处理数据集中可能包含各种各样、不同比例的特征字段,比如美元、千克、价格,有的特征列数值范围在100以内,有的却达到几百万,差异很大。
很多机器学习模型不希望有这样大的差异,如果数据集各个属性之间的数值差异越小,则模型表现的会越好。
1) 提升模型的收敛速度
如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏)
2)提升模型的精度
归一化的另一好处是提高精度,这在涉及到一些距离计算的算法时效果显著,
以上是关于机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)的主要内容,如果未能解决你的问题,请参考以下文章
机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)
机器学习特征工程之特征缩放+无量纲化:非线性缩放(例如,sigmoidtanharctan等)