快速分箱方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了快速分箱方法相关的知识,希望对你有一定的参考价值。

参考技术A 2018.08.02

R语言中有smbining可以进行最优分箱,python中分箱如果既要考虑箱体个数,分箱后信息量大小,也要考虑单调性等其他因素。
这里给出一种简单的通过IV值来选择如果分箱的方法。
下面是按照分位数来分的,还可以按照卡房分箱,决策树分箱等。
参照toad(由厚本金融开发的较标准的评分卡开发开源包)的分箱方式。

特征工程

1.捕捉A、B变量中的(A强,B弱|A弱、B强)(A中,B中)这样的特征情况,可以用决策树方法(cart)先对A/B变量分箱,然后对分箱结果编码,

然后对分箱结果相乘生成新变量,里面就会有上面说的这种组合变量出现。

这也是为什么好多方法中,先生成一个模型,然后再将这个模型的结果作为一个变量进入另一个模型中,结果会比较好的原因。

2.在对连续变量的处理方式上

1)分箱简单,且可以增强模型稳定性,实际业务中,越简单解释性越强越好。

2)分箱满足模型效果要求,你用后者方法一顿操作,效果可能没有什么提升

3)分箱主要是用于处理连续型变量,这个你不分箱还能怎么做呢

 至于卡方分箱+woe,基本是线性模型的处理方式,尤其是业内常用的logistic,逻辑简单,操作性强,解释性好。
你用树模型或者svm、神经网络等,就对应着其他的分箱和编码方式 

 

以上是关于快速分箱方法的主要内容,如果未能解决你的问题,请参考以下文章

【数据建模 特征分箱】特征分箱的方法

数据挖掘实验数据预处理等深分箱与等宽分箱

卡方分箱中卡方值的计算

特征处理方法

使用卡方分箱进行数据离散化

计算分箱列表的标准差