为什么要使用逻辑回归制作评分卡

Posted 2021-02-01 simpledi

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了为什么要使用逻辑回归制作评分卡相关的知识，希望对你有一定的参考价值。

1、什么是评分卡？

在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段，一般来说，评分卡打出的分数越高，客户的信用越好，风险越小。

2、评分卡怎么使用？

对于需要借贷的个人或者公司，在借贷时需要填写一张表格，表格内容包括年龄，收入，家庭人口数量等等。评分卡将每个特征划分为几个区间，每个区间有一个分数。根据客户所填信息和评分卡，为客户所填的每一个特征赋一个分数，最后相加计算这个用户的总得分。依据总得分评估他的信用程度。

3、怎么使用逻辑回归制作评分卡？

制作评分卡需要大量客户所填的信息（特征矩阵X），以及该客户是否违约的信息（标签Y）。

（1）对特征矩阵X进行数据预处理。包括去除重复值，填补缺失值（仅有极少数样本缺失该特征可考虑直接删除该特征，可使用均值填补家庭人数，随机森林填补收入等），处理异常值，处理样本不均衡问题（使用过采样和欠采样的方法），但是我们一般不对数据进行标准化处理（这是因为我们给出的评分卡是给业务人员看的，而客户所填信息天生就是量纲不统一的）。

（2）找出每个特征最佳分箱数和分享边界。最佳分箱数即使得该特征的IV值尽量在最佳IV值区间（尽量提高每个特征的重要性），并且使得该特征的箱内相似，箱间差异大。因此步骤是这样的：首先确定一个较大的箱子数，进行等频分箱，计算各箱WOE值和特征的IV值，然后依据卡方检验值合并相似箱子，再次计算各箱WOE值以及该特征IV值，直到箱子数量变为一个较小值。画出箱子个数-IV值曲线，找出分箱个数和各箱边界。

（3）对各个特征依据最佳分箱边界进行分箱。分箱后得到特征的各箱边界以及WOE值。

（4）处理训练集和测试集的特征矩阵X。将特征矩阵中的值全部替换为对应箱子的WOE值。

（5）使用训练集进行建模，使用测试集计算模型得分，并且利用学习曲线调整正则化系数C和最大迭代次数max_iter提高模型得分。

（6）制作评分卡。根据该公式的值计算出系数A和B的值，根据逻辑回归得到的截距lr.intercept_、各特征系数lr_coef_。用base_score = A - B*lr.intercept_公式计算该评分卡的基准值，用col_score = woeall["i_colName"] * (-B*lr.coef_[0][i])计算各特征的分数列表（每个箱子对应一个分数），其中woeall["i_colName"]是i特征的箱子列表和对应的WOE值列表。

4、为什么要使用逻辑回归制作评分卡？

因为评分卡制作其实就是将连续的特征离散化，且为每一个离散值赋一个分数。其中逻辑回归的截距用于计算评分卡基准值；逻辑回归系数用于表示各个特征在判别标签时的重要程度；各箱的woe值用于逻辑回归建模时代替特征矩阵X原始值带入计算。

以上是关于为什么要使用逻辑回归制作评分卡的主要内容，如果未能解决你的问题，请参考以下文章

详解逻辑回归与评分卡-用逻辑回归制作评分卡-重复值和缺失值处理菜菜的sklearn课堂笔记

逻辑回归评分卡100问——基于申请评分卡

DataScience：逻辑回归之金融评分卡模型的简介构建开发使用过程之详细攻略

详解逻辑回归与评分卡-逻辑回归中的特征工程菜菜的sklearn课堂笔记

kaggle-制作评分卡

我试图拟合和评分逻辑回归模型但出现错误，任何人都可以帮我解决这个错误