快速分箱方法
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了快速分箱方法相关的知识,希望对你有一定的参考价值。
参考技术A 2018.08.02R语言中有smbining可以进行最优分箱,python中分箱如果既要考虑箱体个数,分箱后信息量大小,也要考虑单调性等其他因素。
这里给出一种简单的通过IV值来选择如果分箱的方法。
下面是按照分位数来分的,还可以按照卡房分箱,决策树分箱等。
参照toad(由厚本金融开发的较标准的评分卡开发开源包)的分箱方式。
特征工程
1.捕捉A、B变量中的(A强,B弱|A弱、B强)(A中,B中)这样的特征情况,可以用决策树方法(cart)先对A/B变量分箱,然后对分箱结果编码,
然后对分箱结果相乘生成新变量,里面就会有上面说的这种组合变量出现。
这也是为什么好多方法中,先生成一个模型,然后再将这个模型的结果作为一个变量进入另一个模型中,结果会比较好的原因。
2.在对连续变量的处理方式上
1)分箱简单,且可以增强模型稳定性,实际业务中,越简单解释性越强越好。
2)分箱满足模型效果要求,你用后者方法一顿操作,效果可能没有什么提升
3)分箱主要是用于处理连续型变量,这个你不分箱还能怎么做呢
至于卡方分箱+woe,基本是线性模型的处理方式,尤其是业内常用的logistic,逻辑简单,操作性强,解释性好。
你用树模型或者svm、神经网络等,就对应着其他的分箱和编码方式
你用树模型或者svm、神经网络等,就对应着其他的分箱和编码方式
以上是关于快速分箱方法的主要内容,如果未能解决你的问题,请参考以下文章