python计算IV值及使用

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python计算IV值及使用相关的知识,希望对你有一定的参考价值。

更多风控建模、大数据分析等内容请关注公众号《大数据风控的一点一滴》

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:

def CalcIV(Xvar, Yvar): 
   N_0  = np.sum(Yvar==0)
   N_1 = np.sum(Yvar==1)
   N_0_group = np.zeros(np.unique(Xvar).shape)
   N_1_group = np.zeros(np.unique(Xvar).shape)
   for i in range(len(np.unique(Xvar))):
       N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count()
       N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count()
   iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1)))
   return  iv   

def caliv_batch(df, Kvar, Yvar):
   df_Xvar = df.drop([Kvar, Yvar], axis=1)
   ivlist = []
   for col in df_Xvar.columns:
       iv = CalcIV(df[col], df[Yvar])
       ivlist.append(iv)
   names = list(df_Xvar.columns)
   iv_df = pd.DataFrame({‘Var‘: names, ‘Iv‘: ivlist}, columns=[‘Var‘, ‘Iv‘])

   return iv_df

其中,df是分箱后的数据集,Kvar是主键,Yvar是y变量(0是好,1是坏)。代码运行结果如下:
技术分享图片

以上是关于python计算IV值及使用的主要内容,如果未能解决你的问题,请参考以下文章

SQL计算KSAUCIVPSI等风控模型指标

python字典多键值及重复键值的使用方法(详解)

如何在 python 中并行化以下代码片段?

python包Yellowbrick可视化lasso模型的最佳alpha值及误测误差

Python3 求最大/小值及索引值 Numpy

Python校验文件Hash值及获取文件属性