零基础入门金融风控-贷款违约预测-机器学习-数据分析

Posted 豪神+++

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了零基础入门金融风控-贷款违约预测-机器学习-数据分析相关的知识,希望对你有一定的参考价值。

零基础入门金融风控-贷款违约预测

一、赛题数据

赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

数据可在阿里云学习赛中获得。

  • 字段表
idFieldDescription
1id为贷款清单分配的唯一信用证标识
2loanAmnt贷款金额
3term贷款期限(year)
4interestRate贷款利率
5installment分期付款金额
6grade贷款等级
7subGrade贷款等级之子级
8employmentTitle就业职称
9employmentLength就业年限(年)
10homeOwnership借款人在登记时提供的房屋所有权状况
11annualIncome年收入
12verificationStatus验证状态
13issueDate贷款发放的月份
14purpose借款人在贷款申请时的贷款用途类别
15postCode借款人在贷款申请中提供的邮政编码的前3位数字
16regionCode地区编码
17dti债务收入比
18delinquency_2years借款人过去2年信用档案中逾期30天以上的违约事件数
19ficoRangeLow借款人在贷款发放时的fico所属的下限范围
20ficoRangeHigh借款人在贷款发放时的fico所属的上限范围
21openAcc借款人信用档案中未结信用额度的数量
22pubRec贬损公共记录的数量
23pubRecBankruptcies公开记录清除的数量
24revolBal信贷周转余额合计
25revolUtil循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
26totalAcc借款人信用档案中当前的信用额度总数
27initialListStatus贷款的初始列表状态
28applicationType表明贷款是个人申请还是与两个共同借款人的联合申请
29earliesCreditLine借款人最早报告的信用额度开立的月份
30title借款人提供的贷款名称
31policyCode公开可用的策略_代码=1新产品不公开可用的策略_代码=2
32n系列匿名特征匿名特征n0-n14,为一些贷款人行为计数特征的处理

二、评测标准

提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。

三、代码演示

  • 说明:下面运行结果贴出的是部分图。
  • 环境:本案例使用的库
    • pandas 1.3.2
    • matplotlib 3.4.3
    • seaborn 0.11.2
    • numpy 1.21.2
    • scipy 1.4.1
    • scikit-learn 0.24.2
  • 使用的是jupyter notebook

1. 数据分析及处理

1.1.0导入相关库

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import matplotlib as mpl
#显示所有列
pd.set_option('display.max_columns',None)
# 警告处理 
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

1.1.1数据预处理

df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('testA.csv')
df_train.shape, df_test.shape

df_train['train_test'] = 'train'
df_test['train_test'] = 'test'

合并训练集和测试集

df = df_train.append(df_test)
df.reset_index(inplace=True)
df.drop('index',inplace=True,axis=1)
display(df.head())

df.info()


缺失值处理

# 需要处理的列名
is_na_cols = [
    'employmentTitle', 'employmentLength', 'postCode', 'dti', 'pubRecBankruptcies',
    'revolUtil', 'title',] + [f'n{i}' for i in range(15)]

对缺失值 用众数填充

# 对缺失值 用众数填充
for i in range(len(is_na_cols)):
    most_num = df[is_na_cols[i]].value_counts().index[0]
    df[is_na_cols[i]] = df[is_na_cols[i]].fillna(most_num)
df.info()


分开训练集和测试集

df_train = df[df['train_test'] == 'train']
df_test = df[df['train_test'] == 'test']

del df_train['train_test']
del df_test['train_test']
df_train.shape, df_test.shape


删除测试集的预测目标

del df_test['isDefault']

1.1.2数值型变量和非数值型变量的处理与分析

# 非数值型
non_numeric_cols = [
    'grade', 'subGrade', 'employmentLength', 'issueDate', 'earliesCreditLine'
]
# 数值型
numeric_cols = [
    x for x in df_test.columns if x not in non_numeric_cols + ['isDefault']
]
non_numeric_cols, numeric_cols

1.1.3数值型(numeric_cols)测试集与训练集分布

画箱式图可查看哪些列名是连续型和非连续型变量

# 画箱式图
column = numeric_cols # 列表头
fig = plt.figure(figsize=(20, 40))  # 指定绘图对象宽度和高度
for i in range(len(column)):
    plt.subplot(13, 4, i + 1)  # 13行3列子图
    sns.boxplot(df[column[i]], orient="v", width=0.5)  # 箱式图
    plt.ylabel(column[i], fontsize=8)
plt.show()

1.1.4取出数值连续性变量,查看数据分布

continuous_cols = [
    'id', 'loanAmnt', 'interestRate', 'installment', 'employmentTitle', 'homeOwnership',
    'annualIncome', 'purpose', 'postCode', 'regionCode', 'dti', 'delinquency_2years',
    'ficoRangeLow', 'ficoRangeHigh', 'openAcc', 'pubRec', 'revolBal', 'revolUtil','totalAcc',
    'title', 'n14'
] + [f'n{i}' for i in range(11)] 
non_continuous_cols = [
    x for x in numeric_cols if x not in continuous_cols
]

可视化正太分布,查看测试集与训练集的数据是否相同,相同可保留,差距会影响预测结果,就去除。

dist_cols = 6
dist_rows = len(df_test[continuous_cols].columns)
plt.figure(figsize=(4*dist_cols,4*dist_rows))

i=1
for col in df_test[continuous_cols].columns:
    ax=plt.subplot(dist_rows,dist_cols,i)
    ax = sns.kdeplot(df_train[continuous_cols][col], color="Red", shade=True)
    ax = sns.kdeplot(df_test[continuous_cols][col], color="Blue", shade=True)
    ax.set_xlabel(col)
    ax.set_ylabel("Frequency")
    ax = ax.legend(["train","test"])
    
    i+=1
plt.show()

画QQ图及正态分布图

  • QQ图:曲线越接近直线,越接近正态分布,预测效果更好。
train_cols = 6
train_rows = len(df[continuous_cols].columns)
plt.figure(figsize=(4*train_cols,4*train_rows))

i=0
for col in df[continuous_cols].columns:
    i+=1
    ax=plt.subplot(train_rows,train_cols,i)
    sns.distplot(df[continuous_cols][col],fit=stats.norm)
    i+=1
    ax=plt.subplot(train_rows,train_cols,i)
    res = stats.probplot(df[continuous_cols][col], plot=plt)
plt.show()


训练集的数据和测试集的数据分布差不多可以将他们整合到一起进行处理

1.1.5查看数值非连续性型数据分布

for i in range(len(non_continuous_cols)):
    print("%s这列的非连续性数据的分布:"%non_continuous_cols[i])
    print(df[non_continuous_cols[i]].value_counts())

1.1.6查看非数值型数据分布

for i in range(len(non_numeric_cols)):
    print("%s这列非数值型数据的分布:\\n"%non_numeric_cols[i])
    print(df[non_numeric_cols[i]].value_counts())

2. 特征工程

2.1.1 数值非连续性型数据处理

  1. policyCode字段
df['policyCode'].describe()

# 字段只有一个值,不用了
df.drop('policyCode',axis=1,inplace=True)
  1. n13字段
df['n13'] = df['n13'].apply(lambda x: 1 if x not in [0] else x)
df['n13'].value_counts()

2.1.2 非数值型数据

  1. grade字段
# 非数值型编码
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['grade'] = le.fit_transform(df['grade'])
df['grade'].value_counts()


2. subGrade字段

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['subGrade'] = le.fit_transform(df['subGrade'])
df['subGrade'].value_counts()


3. employmentLength字段

# 构造编码函数
def encoder(x):
    if x[:-5] == '10+ ':
        return 10
    elif x[:-5] == '< 1':
        return 0
    else:
        return int(x[0])
df['employmentLength'] = df['employmentLength'].apply(encoder)
df['employmentLength'].value_counts()


4. issueDate字段

  • 计算离现在多少月就ok了
from datetime import datetime
def encoder1(x):
    x = str(x)
    now = datetime.strptime('2020-07-01','%Y-%m-%d')
    past = datetime.strptime(x,'%Y-%m-%d')
    period = now - past
    period = period.days
    return round(period / 30, 2)
df['issueDate'] = df['issueDate'].apply(encoder1)
df['issueDate'].value_counts()


5. earliesCreditLine字段

def encoder2(x):
    if x[:3] == 'Jan':
        return x[-4:] + '-' + '01-01'
    if x[:3] == 'Feb':
        return x[-4:] + '-' + '02-01'
    if x[:3] == 'Mar':
        return x[-4:] + '-' + '03-01'
    if x[:3] == 'Apr':
        return x[-4:] + '-' + '04-01'
    if x[:3] == 'May':
        return x[-4:] + '-' + '05-01'
    if x[:3] == 'Jun':
        return x[-4:] + '-' + '06-01'
    if x[:3] == 'Jul':
        return x[-4:] + '-' + '07-01'
    if x[:3] == 'Aug':
        return x[-4:] + '-' + '08-01'
    if x[:3] == 'Sep':
        return x[-4:] + '-' + '09-01'
    if x[:3] == 'Oct':
        return x[-4:] + '-' + '10-01'
    if x[:3] == 'Nov':
        return x[-4:] + '-' + '11-01'
    if x[:3] == 'Dec':
        return x[-4:] + '-' + '12-01'
df['earliesCreditLine'] = df['earliesCreditLine'].apply(encoder2)
df['earliesCreditLine'].value_counts()

df['earliesCreditLine'] = df['earliesCreditLine'].apply(encoder1)
df['earliesCreditLine'].value_counts()

3. 保存文件

train = df[df['train_test'] == 'train']
test = df[df['train_test'] == 'test']
del test['isDefault']
del train['train_test']
del test['train_test']
train.to_csv('train_process.csv')
test.to_csv('test_process.csv')

4. 数据建模

4.1.1数据查看

# 数据处理
import numpy as np
import pandas as pd

# 数据可视化
import matplotlib.pyplot as plt

# 特征选择和编码
from sklearn.preprocessing import LabelEncoder

# 机器学习
from sklearn import model_selection, tree, preprocessing, metrics
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LinearRegression, LogisticRegression, Ridge, Lasso, SGDClassifier
from sklearn.tree import DecisionTreeClassifier

# 网格搜索、随机搜索
import scipy.stats as st
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

# 模型度量(分类)
from sklearn.metrics import precision_recall_fscore_support, roc_curve, auc

# 警告处理 
import warnings
warnings.filterwarnings('ignore')

# 在Jupyter上画图
%matplotlib inline
train = pd.read_csv('train_process.csv')
test = pd.read_csv('test_process.csv')
train.shape, test.shape

train.columns,test.columns

# 删除Unnamed: 0
del train['Unnamed: 0']
del test['Unnamed: 0']
## 为了正确评估模型性能,将数据划分为训练集和测试集,并在训练集上训练模型,在测试集上验证模型性能。
from sklearn.model_selection import train_test_split

## 选择其类别为0和1的样本 (不包括类别为2的样本)
data_target_part = train['isDefault']
data_features_part = train[[x for x in train.columns if x != 'isDefault' and 'id']]

## 测试集大小为20%, 80%/20%分
x_train, x_test, y_train, y_test = train_test_split(data_features_part, data_target_part, test_size = 0.2, random_state = 2020)
x_train.head()

y_train.head()

4.1.1选择算法

以下是用到的算法.

  • Logistic Regression
  • Random Forest
  • Decision Tree
  • Gradient Boosted Trees
# 绘制AUC曲线
import time
def plot_roc_curve以上是关于零基础入门金融风控-贷款违约预测-机器学习-数据分析的主要内容,如果未能解决你的问题,请参考以下文章

基于机器学习与深度学习的金融风控贷款违约预测

数据挖掘机器学习[六]---项目实战金融风控之贷款违约预测

数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(下篇)[xgboots/lightgbm/Catboost等模型]--模型融合:stackingblending

阿里云天池 学习赛汇总(教学赛,零基础入门,长期赛)

使用迁移学习进行金融小样本风控实践(基于tradaboost进行个贷违约迁移学习比赛)

实战案例:使用机器学习算法预测用户贷款是否违约?