特征工程

Posted ironan-liu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了特征工程相关的知识,希望对你有一定的参考价值。

1.捕捉A、B变量中的(A强,B弱|A弱、B强)(A中,B中)这样的特征情况,可以用决策树方法(cart)先对A/B变量分箱,然后对分箱结果编码,

然后对分箱结果相乘生成新变量,里面就会有上面说的这种组合变量出现。

这也是为什么好多方法中,先生成一个模型,然后再将这个模型的结果作为一个变量进入另一个模型中,结果会比较好的原因。

2.在对连续变量的处理方式上

1)分箱简单,且可以增强模型稳定性,实际业务中,越简单解释性越强越好。

2)分箱满足模型效果要求,你用后者方法一顿操作,效果可能没有什么提升

3)分箱主要是用于处理连续型变量,这个你不分箱还能怎么做呢

 至于卡方分箱+woe,基本是线性模型的处理方式,尤其是业内常用的logistic,逻辑简单,操作性强,解释性好。
你用树模型或者svm、神经网络等,就对应着其他的分箱和编码方式 

 

以上是关于特征工程的主要内容,如果未能解决你的问题,请参考以下文章

特征工程

特征工程

数据挖掘——特征工程

文本分类特征工程概述

机器学习特征工程之特征构造:构造统计特征

特征工程|时间特征构造以及时间序列特征构造