spark 特征工程 -- 分箱 Binning

Posted shiter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 特征工程 -- 分箱 Binning相关的知识,希望对你有一定的参考价值。


分箱操作简介

目的

分箱就是将连续变量离散化,合并成较少的状态

分箱操作的种类

  1. 等频分位数分箱 -

指定默认分箱个数后,将数据分箱到每个箱中并且每个箱中的数据量大致相等 - 自定义分箱个数,对具体某一列的分箱个数进行指定。以;间隔,每条规则以:间隔,例如a:3;b:10

  1. 等宽分箱

指定默认分箱个数后,按照列中的最小值到最大值之间,将数据N等分,数据分到每个箱中,和等频分箱相比每个箱中的数据量不固定 - 自定义分箱个数,对具体

以上是关于spark 特征工程 -- 分箱 Binning的主要内容,如果未能解决你的问题,请参考以下文章

机器学习特征工程之连续变量离散化:等频分箱

机器学习特征工程之连续变量离散化:等宽分箱

特征工程

Equal - depth binning - 是不是只是将数据分组到 k 组

机器学习特征工程之连续变量离散化:聚类法进行分箱

ALINK(二十二):特征离散化简介