spark 等频 等宽 分箱的一个小问题

Posted shiter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 等频 等宽 分箱的一个小问题相关的知识,希望对你有一定的参考价值。


spark 等频 等宽 分箱 数据量较少时的现象

这里有一个很有趣的问题,当分箱数比较少 ,少于数据个数时候,等频分箱箱子编号是从0开始的。

当分箱数比较多的时候,多于数据数量,箱子编号是从1 开始编号的

以上是关于spark 等频 等宽 分箱的一个小问题的主要内容,如果未能解决你的问题,请参考以下文章

数据挖掘实验数据预处理等深分箱与等宽分箱

快速分箱方法

spark 特征工程 -- 分箱 Binning

pandas 进阶

机器学习特征工程之连续变量离散化:等频分箱

Equal - depth binning - 是不是只是将数据分组到 k 组