如何“谨慎”使用“数据驱动”的风控模型-- 数据篇

Posted 2020-10-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何“谨慎”使用“数据驱动”的风控模型-- 数据篇相关的知识，希望对你有一定的参考价值。

如何“谨慎”使用“数据驱动”的风控模型（一）-- 数据篇

人工智能时代来临，2017年“数据驱动”在整个信贷生态圈热度陡增，无论是金融机构、助贷机构、征信机构、大数据厂商等，无不在各大论坛、峰会、沙龙、融资中宣传各自“数据驱动”的理念。而银监会的121号文则给大大小小的机构泼了一盆冷水，“谨慎”使用“数据驱动”的风控模型，字字珠玑。小编认为，监管层的意图无需过度解读，但无疑监管层已深刻洞察行业鱼龙混杂，充斥着以“数据驱动”为名、实以高利率覆盖高坏账的玩家。小编也在与各大信贷机构的风控从业人员、风控解决方案提供商的交流过程中，发现对“数据驱动”理念一知半解的大有人在，更别谈“谨慎”使用了。小编总结认为至少存在以下误区：

? 对接了外部征信数据就认为是“数据驱动”或者是“大数据风控”

? 过度依赖大厂或权威资源，例如芝麻分、人行征信等等，缺乏自主风控能力

? 算法至上，认为风控模型解决一切，KS值多高、坏账率控制的多低，云云

人工智能的发展离不开数据，作为未来消费金融行业的重要着力点，如何正确搭建“数据驱动”的风控模型，并“谨慎”使用呢？

技术分享图片

首先谈理念，这里需要将讨论的范围从狭义的风控模型扩展到风控体系，限于篇幅，仅介绍小额消费信贷的风控审核场景，应对欺诈风险及信用风险，不包括操作风险、流动性风险及系统性风险。大额度的消费信贷或小微企业融资，以目前的征信数据条件人工参与风控是必不可少的，此处不再赘述。数据驱动（风控）的关键理念包括：

ü 理解你的客户，不同的客户群体、消费场景、产品设计所面临的风险点是不同的，没有一套风控体系（风控模型）可以包打天下；

ü 数据为先，有用的数据、高质量的数据是成功的关键，如同没有上好的食材，给个米其林三星大厨也没用；

ü 风控体系搭建非一日之功，数据驱动也非一针见效的灵丹妙药，需要不断的迭代、优化，小步快跑，早期建议先进行小范围、短周期试验，除非公司不在乎钱；

ü 风控的目的不是杜绝坏账，而是基于盈利的预期，平衡风险与收益，取得利润最大化；

ü 紧盯你的数据表现，切勿盲目乐观，新的风险往往从未知之处悄然而至，如果你的风控体系能越快识别、应对、抵御这些风险，遭受的损失就会越少。

铺垫了这么多，终于可以切入主题了。谨慎使用“数据驱动”的风控体系，需要“数据 + 决策 + 监控”的动态闭环。整个体系需要不断的演进，通过持续的模拟测试，A/B实验，不断发现新的规律、新的变量，使风控体系越来越健壮。

数据篇 技术分享图片

风控数据包括了采集的原始数据与加工的衍生数据，原始数据包括产品采集的用户基本信息、设备指纹、消费场景相关的交易信息，以及外部征信数据；衍生数据是按照风控决策的需要，对原始数据加工后的变量。

数据的种类很多，用途也很多。设备指纹数据与反欺诈高度相关，多头借贷、失信被执行人等数据则与信用风险强相关，性别、年龄、地域、学历等则是信用风险的弱相关数据，通常组合在一起使用更有效。

技术分享图片

在互联网爆炸的时代，XX盾，XX融，XX查，XX联等数据供应商铺天盖地，企业内部也有动辄成千甚至上万的数据标签，大家似乎都不缺数据。然而，数据多不代表数据有用，数据多不代表能够支撑高频、实时、复杂、多变的风控决策，错误的数据一定会得到错误的决策结果。因此，今天小编着重和大家聊聊数据质量管理，如何确保数据能用、有用。

数据质量管理，通常由以下5个关键步骤组成：质量问题探查，清洗规则定义，清洗方案测试及部署，实时数据清洗，数据质量监控。

技术分享图片

数据剖析：解决问题之前，必须了解问题。要解决数据质量，首先要了解数据的现状，了解潜在的问题。举个栗子，假设我们拿到一批数据，其中有性别这个字段，我们想当然会觉得里面的值应该是“男”或“女”，但实际观察里面的值可能是“男”、“女”、“男性”、“女性”、“F”、“M”，“空”，等等；再比如，×××的字段，有些是18位的，有些是15位的，也可能是12位的，仔细观察12位的数据，它是截取了前4位或后4位，中间用了*号做掩码；再比如，电话号码字段，观察其中的数据，有固话、手机、带区号的、不带区号的，区号分国家代码的，区号不分国家代码的，等等。可以想象，数据字段越多，剖析出的问题会非常多。我们有时把数据质量管理等同于数据清洗这个动作，实际上，数据剖析的重要性丝毫不亚于数据清洗的执行，没有足够的数据剖析，是无法制定完善的数据清洗方案的。

清洗规则定义：通过数据剖析，了解了数据的各项问题之后，就可以针对各数据项的特点，设计清洗的规则。清洗的方法有很多种，包括替换、映射、截取，等等。除了将数据清洗成干净有用的数据之外，通常还需要制定规则，将无法清洗的脏数据隔离起来。

清洗方案测试与部署：确定了清洗规则之后，部署之前应经过充分的模拟和测试，可以先用离线数据、历史数据进行批量清洗，检查清洗的效果。

实时数据清洗：清洗方案部署到线上系统后，可以自动清洗实时采集的数据，及时将脏数据隔离起来。

数据质量实时监控：数据清洗不是一劳永逸的，一切都在变化之中。是不是出现了新型的脏数据？清洗程序有没有正常运行？数据源是否出现了质量事故？数据源是否断了？能不能自动切换主备线或采取其他的备用机制？一句话，数据质量实时监控。

好了，数据篇的主要内容今天就介绍到这里，近期还会继续推出：如何“谨慎”使用“数据驱动”的风控模型（二）-- 决策篇，向大家介绍完整的风控决策体系，敬请期待。

以上是关于如何“谨慎”使用“数据驱动”的风控模型-- 数据篇的主要内容，如果未能解决你的问题，请参考以下文章

数据分析之风控

线上直播巨量数据下的风控

互金时代如何定制个性化信用评分模型

信贷系统学习总结—— 简单的风控示例（含代码）

NTZ改机原理全公开-- 架构篇

笔记杭银消金基于 Apache Doris 1.2 最新版本的风控数据集市升级改造