IV值小结

Posted bitcarmanlee

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了IV值小结相关的知识,希望对你有一定的参考价值。

0 引言

在金融场景中,IV值是一个经常用来衡量特征强弱的指标。IV值如果比较大,说明该特征的区分度比较强,如果IV值比较小则说明特征的区分度比较弱。正因为有该性质,所以IV值经常用来进行特征选择。

1.WOE

在介绍IV值之前,需要先介绍一下WOE
WOE, Weight Of Evidence,直译过来就是证据权重。WOE是对原始变量的一种编码方式。计算的具体步骤主要包括两步
1.对变量分组,一般的方式为分箱或者离散化处理。比如常见的分箱方法有等频分箱,等高分箱等。
2.分箱以后,对于第i组,计算该组的woe(i)值。
w o e i = l n ( p y i p n i ) = l n ( y i / y s n i / n s ) woe_i = ln(\\frac{p_{yi}}{p_{ni}}) = ln(\\frac{y_i/y_s}{n_i/n_s}) woei=ln(pnipyi)=ln(ni/nsyi/ys)
其中, y i y_i yi表示分组中的响应用户, y s y_s ys表示总响应用户。 n i n_i ni表示分组中的未响应用户, n s n_s ns表示总未响应用户。

2.IV值计算

IV衡量的是某一个变量的信息量。 对于分组i的IV值,具体的计算公式如下
I V i = ( p y i − p n i ) ∗ w o e i = ( p y i − p n i ) ∗ l n ( p y i p n i ) = ( y i / y s − n i / n s ) ∗ l n ( y i / y s n i / n s ) \\begin{aligned} IV_i&=(p_{yi} - p_{ni}) * woe_i \\\\ &=(p_{yi} - p_{ni})* ln(\\frac{p_{yi}}{p_{ni}}) \\\\ & = (y_i/y_s - n_i/n_s) * ln(\\frac{y_i/y_s}{n_i/n_s}) \\end{aligned} IVi=(pyipni)woei=(pyipni)ln(pnipyi)=(yi/ysni/ns)ln(ni/nsyi/ys)

那么整个变量的IV值为
I V = ∑ i n I V i IV = \\sum_i^n IV_i IV=inIVi

3.为什么使用IV值而不是WOE

WOE 和 IV 都能表达某个分组对目标变量的预测能力。那为什么我们实际使用的都是IV而不是WOE呢?
1.WOE有可能是负值,而IV值永远为正,实际场景中我们不太可能使用一个可能为负值的指标。
2. p y i − p n i p_{yi} - p_{ni} pyipni这个数值,体现了当前分组样本在整体中的占比,相当于给当前样本的区分能力乘以了一个权重。这个权重越大,对应的区分度也就越高,对整体的贡献也就越突出。

4.需要注意的几个点

1.IV值并不是越大越好。IV过大,很可能是分箱不当所引起的,这个时候需要对数据进行重新分箱操作。
2.如果按照原始的公式进行计算,分箱操作时,某个组的数据不能为0,否则做除法运算时会触发异常。
3.实际项目操作过程中,一般选择0.2作为阈值。如果某个特征的IV值小于0.2,说明区分度不太够,该特征不予采用。

以上是关于IV值小结的主要内容,如果未能解决你的问题,请参考以下文章

toDoList小结

函数基础小结

0e开头MD5值小结

Python: 函数参数小结

Cookie小结

block 页面传值小结