机器学习特征工程之连续变量离散化:等频分箱

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习特征工程之连续变量离散化:等频分箱相关的知识,希望对你有一定的参考价值。

 机器学习特征工程之连续变量离散化:等频分箱

离散化,就是把无限空间中有限的个体映射到有限的空间中;

根据用户的听音乐的数据来预测哪些歌曲更受欢迎。

假设大部分人听歌都很平均,会不停的听新的歌曲,但是有一个用户24小时的不停播放同一首歌曲,并且这个歌曲很偏门,导致这首歌的总收听次数特别高。如果用总收听次数来喂给模型,就会误导模型。这时候就需要使用“二值化”。

拿每个人的收入举例,大部分人的收入都不高,极少数人的收入极其高,分布很不均匀。有些人月收入3000,有些人月收入30万,跨了好几个数量级。

这种特征对于模型很不友好。这种情况就可以使用分桶来处理。分箱就是将数值特征分成不同的区间,将每个区间看做一个整体。

连续数据的离散化结果可以分为两类:

  一类是将连续数据划分为特定区间的集合,例如{(0,10],(10,20],(20,50],(50,100]}

  一类是将连续数据划分为特定类,例如类1、类2、类3

 常见实现针对连续数据化离散化的方法如下。

  分位数法:使用四分位、五分位、十分位等分位数进行离散化处理

  距离区间法:可使用等距区间或自定义区间的方式进行离散化,该方法(尤其是等距区间)可以较好地保持数据原有的分布

  频率区间法:将数据按照不同数据的频率分布进行排序,然后按照等频率或指定频率离散化,这种方法会把数据变换成均匀分布。好处是各区间的观察值是相同的,不足会改变了原有数据的分布状态。每个桶里的数值个数是相同

以上是关于机器学习特征工程之连续变量离散化:等频分箱的主要内容,如果未能解决你的问题,请参考以下文章

机器学习特征工程之连续变量离散化:聚类法进行分箱

系统学习机器学习之特征工程--分箱总结

机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)

spark 特征工程 -- 分箱 Binning

特征工程

特征工程