人工智能技术在金融风控领域中的应用
Posted 黑马程序员官方
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了人工智能技术在金融风控领域中的应用相关的知识,希望对你有一定的参考价值。
一、信贷&风控介绍
信贷业务
- 就是贷款业务,是商业银行和互联网金融公司最重要的资产业务和主要赢利手段。
- 通过放款收回本金和利息,扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况,然后将本金借贷给还款概率大的用户。
信贷业务中的风险控制
- 信贷业务中,使用信用来预支金钱,在小额贷业务中往往没有抵押物,那么贷款方就会承担一定风险(用户不还钱)
- 风控就是对用户的信用风险进行管理与规避,对于预测信用较差的人,不向其放款,即便放款,也会是较小的贷款额度和较高的利率
信贷领域有两类风险
- 信用风险:借款人的的还款能力和还款意愿在贷款后出现问题的风险
- 欺诈风险:借款人压根没想还钱,以诈骗为目的
风控业务主要针对这两类风险
- 信用评分系统:针对信用风险
- 反欺诈系统:针对欺诈风险
人工智能风控模型对比传统人工审批
- 人工审批:效率低,对人员业务能力要求高,不适合金融零售业务场景
- 机器学习模型:批量,迅速,准确,同时处理大量贷款请求(几万,几十万,上百万/天)
二、常见信贷产品
信贷产品介绍
消费贷
信用卡,花呗,白条等产品,有账单日,还款日
申请消费贷 -> 额度授信->客户使用消费贷消费
现金贷
申请借款->放款给客户->客户还款
三、常见风险介绍
常见风险
冒名顶替,黑产骗贷
多头借贷,借新还旧
- 客户:工行信用卡,招商信用卡... n张信用卡,网贷平台1,网贷平台2,网贷平台n
- 用新借来的钱换已有的负债:负债变多 -> 需新借更多 -> 设法提额 -> 信用资质不够 -> 出现流动性风险 -> 逾期
- 特点:第三方数据:多头申请记录
- APP安装:大量借款类APP
- 短信:大量申请短信,提醒还款,催收短信
POS机套现,以少换多
- 购买有支付牌照机构的POS机进行套现,手续费0.6%
针对风控模型,制作数据
- 使用花呗在天猫购物,对花呗账单做分期
- 买入存金宝,一个礼拜后追加存金宝资金
- 购买***元基金
- 保持余额宝XXX元不动,余额宝累计收益做到 XX元
- 购买XXXX保险
四、金融风控体系介绍
信贷审批业务基本流程
四要素认证:银行卡持有人的姓名、身份证号、银行卡号、手机号
互联网金融风控体系主要由三大部分组成
■ 用户数据
▶ 用户基本信息、用户行为信息、用户授权信息、外部接入信息。
- 数据采集会涉及到埋点和爬虫技术,基本上业内的数据都大同小异。
- 安卓可爬的手机内部信息(app名称,手机设备信息,部分app内容信息)
- 收费的征信数据、各种信息校验、外部黑名单之类的
- 特定场景的现金贷和消费金融会有自有的数据可供使用
- 比如阿里京东自己的电商数据
- 滴滴的司机数据、顺丰中通的快递数据
▶ 用户基本信息(联系人,通讯录,学历...)
▶ 用户行为信息(操作APP时的行为,注册,点击位置...)
▶ 用户授权信息(运营商,学信网,设备IMEI....)
▶ 外部接入信息(P2P信贷,其它金融机构如芝麻信用分...)
■ 策略体系
- 反欺诈规则、准入规则、运营商规则、风险名单、网贷规则
▶ 收集来用户的信息之后,把用户信息输入到策略引擎
▶ 欺诈规则
▶ 准入规则(年龄,地域,通讯录,行为规则)
▶ 运营商规则(通话规则)
▶ 风险名单(黑名单,失信名单,法院名单)
▶ 网贷(多头,白户...)
■ 机器学习模型
- 欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。
五、风控建模流程
评分卡模型简介
风控模型其中包含了A/B/C卡。模型可采用相同算法,一般以逾期天数来区分正负样本
- 贷前 申请评分卡 Application score card
- 贷中 行为评分卡 Behavior score card
- 贷后 催收评分卡 Collection score card
风控建模-项目准备
明确需求
- 目标人群:新客,优质老客,逾期老客
- 给与产品:额度,利率
- 市场策略:冷启动,开拓市场,改善营收
- 使用时限:紧急使用,长期部署
例如:业务需要针对全新客户开放一个小额现金贷产品,抢占新市场。
模型设计
- 风控场景下问题通常都可以转化为二分类问题
- 信用评分模型期望用于预测一个用户是否会逾期
- 风控业务中,只有欺诈检测不是分类问题,因为样本数量不足
模型设计
- 模型算法
规则模型
逻辑回归
集成学习
- 模型输入
数据源
时间跨度
- 样本选取
代表性:样本必须能够充分代表总体。如消费贷客群数据不能直接用到小额现金贷场景
充分性:样本集的数量必须满足一定要求。随着样本量的增加,模型的效果会显著提升
时效性:在满足样本量充足的情况下,通常要求样本的观测期与实际应用时间节点越接近越好。
风控建模-特征工程
如何从原始数据中构建特征
- 静态特征
- 时间序列特征
- 缺失值如何处理
- 用户关联特征
风控建模-特征分析
单特征分析
什么是好特征?从几个角度衡量:覆盖度、区分度、相关性、稳定性
- 区分度:是评估一个特征对好坏用户的区分性能的指标
- 特征稳定性主要通过计算不同时间段内同一类用户特征的分布的差异来评估
多特征筛选
星座是大家公认没用的特征,区分度低于星座的特征可以认为是无用特征
- 把所有特征加上星座特征一起做模型训练
- 拿到特征的重要度排序
- 多次训练的重要度排序都低于星座的特征可以剔除
多特征筛选
Boruta算法是一种特征选择方法,使用特征的重要性来选取特征
风控建模-模型训练与评估
目前还是使用机器学习模型,少数公司在尝试深度学习
模型的可解释性>稳定性>区分度
- 区分度:AUC,KS
- 稳定性: PSI
业务指标:通过率,逾期率
- 逾期率控制在比较合理的范围的前提下,要提高通过率
- A卡,要保证一定过得通过率,对逾期率可以有些容忍
- B卡,想办法把逾期率降下来,好用户提高额度
以上是关于人工智能技术在金融风控领域中的应用的主要内容,如果未能解决你的问题,请参考以下文章