为什么要使用逻辑回归制作评分卡
Posted simpledi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为什么要使用逻辑回归制作评分卡相关的知识,希望对你有一定的参考价值。
1、什么是评分卡?
在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,一般来说,评分卡打出的分数越高,客户的信用越好,风险越小。
2、评分卡怎么使用?
对于需要借贷的个人或者公司,在借贷时需要填写一张表格,表格内容包括年龄,收入,家庭人口数量等等。评分卡将每个特征划分为几个区间,每个区间有一个分数。根据客户所填信息和评分卡,为客户所填的每一个特征赋一个分数,最后相加计算这个用户的总得分。依据总得分评估他的信用程度。
3、怎么使用逻辑回归制作评分卡?
制作评分卡需要大量客户所填的信息(特征矩阵X),以及该客户是否违约的信息(标签Y)。
(1)对特征矩阵X进行数据预处理。包括去除重复值,填补缺失值(仅有极少数样本缺失该特征可考虑直接删除该特征,可使用均值填补家庭人数,随机森林填补收入等),处理异常值,处理样本不均衡问题(使用过采样和欠采样的方法),但是我们一般不对数据进行标准化处理(这是因为我们给出的评分卡是给业务人员看的,而客户所填信息天生就是量纲不统一的)。
(2)找出每个特征最佳分箱数和分享边界。最佳分箱数即使得该特征的IV值尽量在最佳IV值区间(尽量提高每个特征的重要性),并且使得该特征的箱内相似,箱间差异大。因此步骤是这样的:首先确定一个较大的箱子数,进行等频分箱,计算各箱WOE值和特征的IV值,然后依据卡方检验值合并相似箱子,再次计算各箱WOE值以及该特征IV值,直到箱子数量变为一个较小值。画出箱子个数-IV值曲线,找出分箱个数和各箱边界。
(3)对各个特征依据最佳分箱边界进行分箱。分箱后得到特征的各箱边界以及WOE值。
(4)处理训练集和测试集的特征矩阵X。将特征矩阵中的值全部替换为对应箱子的WOE值。
(5)使用训练集进行建模,使用测试集计算模型得分,并且利用学习曲线调整正则化系数C和最大迭代次数max_iter提高模型得分。
(6)制作评分卡。根据该公式的值计算出系数A和B的值,根据逻辑回归得到的截距lr.intercept_、各特征系数lr_coef_。用base_score = A - B*lr.intercept_公式计算该评分卡的基准值,用col_score = woeall["i_colName"] * (-B*lr.coef_[0][i])计算各特征的分数列表(每个箱子对应一个分数),其中woeall["i_colName"]是i特征的箱子列表和对应的WOE值列表。
4、为什么要使用逻辑回归制作评分卡?
因为评分卡制作其实就是将连续的特征离散化,且为每一个离散值赋一个分数。其中逻辑回归的截距用于计算评分卡基准值;逻辑回归系数用于表示各个特征在判别标签时的重要程度;各箱的woe值用于逻辑回归建模时代替特征矩阵X原始值带入计算。
以上是关于为什么要使用逻辑回归制作评分卡的主要内容,如果未能解决你的问题,请参考以下文章
详解逻辑回归与评分卡-用逻辑回归制作评分卡-重复值和缺失值处理菜菜的sklearn课堂笔记
DataScience:逻辑回归之金融评分卡模型的简介构建开发使用过程之详细攻略