从万有引力定律到银行业数据挖掘模型 —— 数据驱动业务的机理与一次量化风控实践

Posted 2021-04-27 民生大数据

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了从万有引力定律到银行业数据挖掘模型 —— 数据驱动业务的机理与一次量化风控实践相关的知识，希望对你有一定的参考价值。

任意两个质点有通过连心线方向上的力相互吸引。该引力大小与它们质量的乘积成正比与它们距离的平方成反比，与两物体的化学组成和其间介质种类无关。

—— 艾萨克·牛顿《自然哲学的数学原理》

从万有引力定律说起

万有引力定律是人类文明史上的璀璨星辰，它支配着世界的运转。牛顿自1665年起前后历经20年，沿着离心力、向心力、重力、万有引力概念的演化顺序，于1685年正式提出“万有引力”概念。万有引力定律的发现，是17世纪自然科学最伟大的成果之一。它把地面物体运动的规律和天体运动的规律统一了起来，在人类认识世界的历史上树立了一座里程碑。

数据挖掘模型是什么？

如同万有引力定律和以此为基础的其他物理定律揭示了世界运行的规律一样，数据挖掘模型可以揭示人类活动范围内更广泛现象背后的规律。聚焦于银行业来说，数据挖掘模型（以下简称挖掘模型）可以揭示客户购买银行产品的规律，用于精准营销可帮助我们找到最容易购买某类产品的客户；可以揭示借款人发生违约行为的规律，用于大数据风控可帮助我们区分借款人的风险，找到那些真正高风险的借款人。

银行业的挖掘模型，是对产品、客户及其他要素之间关系背后规律的总结，它的表现形式多样，可以是一些规则、也可以是更加复杂的映射关系（学术一点来讲是函数）。通过挖掘模型，我们得以掌握银行业众多场景下客户、产品及银行策略之间的关系，可以帮助我们更好地开展营销支持和风控管理等工作。

数据如何驱动业务？

现在大家都在谈科技金融、都在谈数据驱动业务。目前，“数据已成为企业的重要资产”这种认知已取得了广泛的共识。数据里蕴含了价值，价值需要经由技术挖掘、萃取，最终才能得以利用，机器学习正是一种可有效萃取数据价值的技术手段。

近几年机器学习很热，大家都在谈论它，如今它已融入我们生活的方方面面。国内外很多公司已将这种技术广泛应用于企业的经营管理中，并且取得了很好的效果。通过机器学习技术对数据实施挖掘建模，找到业务运行背后的规律，调整业务策略并执行，最终达成业务目标，这是数据驱动业务的一种内在机理与可行方式。

通过机器学习构建挖掘模型的本质

信息论的作者克劳德.香农先生有句名言，“信息是用来降低不确定性的东西”。这句话赋予了信息一种全新的含义，也道出了信息这一概念的本质。从数据分析的视角来看，广义来讲机器学习的本质是一种高维空间的分析技术，狭义来讲机器学习即是我们经常听到的所谓“算法“。

它允许把一个业务问题（比如说找寻高风险借款人有哪些特点）放到风险因子所组成的高维空间里进行分析，通过风控模型沉淀出知识，最终得到高风险借款人的画像。这个过程中，数据通过其所携带的信息决定着模型的好坏，严格来说决定着模型性能的上限。算法对有效信息进行消化、吸收后转化为可对目标（高风险借款人）进行预测的知识，算法在逼近那个上限。

举个例子，大家知道通过食用油炒方式烹饪的胡萝卜有助于保护视力。这里，胡萝卜是数据，胡萝卜里富含的胡萝卜素是信息，油炒是最优算法，保护视力是最终目标。油炒这种算法把胡萝卜里的胡萝卜素充分地解析出来，人体吸收后可实现保护视力的目标。

合理利用好机器学习技术

机器学习技术如今已广泛应用于精准营销和大数据风控等金融业务领域，机器学习技术可以帮助银行业解决很多问题，借助它银行可以对资源进行更有效的利用，比如说通过精准营销模型的应用可以在有效降低营销成本的同时达到更显著的营销效果，通过对贷后早期预警模型的应用可以在有效释放风险管理人员产能的同时实现更好的资产质量管理目标。

图1 各类算法诞生及取得突破性进展的年份

机器学习是一种基于大数定律的高维空间分析技术，目前它在诸多领域产生了较好的应用效果，但绝非万能之术。只有理解了机器学习技术的本质，了解机器学习技术可以发挥效果的前提条件，才能更好地应用它助力我们日常的经营、管理。

通俗来讲，通过机器学习技术构建模型的过程，需要准备大量数据，然后通过学习得到知识（业务规律或风险模式）并预测结果，这个过程对业务问题的样本数量有较高的要求。换句话说，目前机器学习更多地应用于银行零售业务领域（而非公司业务领域）并产生了较好的效果有其内在的原因，我们需要理解这背后的机理，合理应用技术才能获得好的效果及可控的投入产出比。

挖掘建模工作的特点

CRISP-DM (cross-industry standard process for data mining)，即跨行业数据挖掘标准流程，描述了挖掘建模的生命周期，是迄今为止模型人员都在遵从的数据挖掘流程。

CRISP-DM是一套行之有效的方法论，它包含了业务理解、数据理解、数据准备、建模、评估及部署等6个环节，各环节并非简单顺次执行，而是根据实际情况循环往复的优化以达到预设目标。CRISP-DM可以让模型人员聚焦于数据价值的挖掘上，遵从这套方法论进行挖掘建模通常可以获得较好的效果。

从万有引力定律到银行业数据挖掘模型 —— 数据驱动业务的机理与一次量化风控实践

图2 CRISP-DM跨行业数据挖掘标准流程

学术一点来讲，挖掘建模是一项目标明确的数据科学探索活动。这里需要澄清一些误解，挖掘建模类工作与传统IT开发类工作有相似之处，但同时也存在较多的不同。区别于传统IT开发类工作具有系统需求明确、开发工作量可预估、工作流程相对清晰且固定等特点，挖掘建模类工作虽然有一定的方法论指导，但通常具有建模环节循环往复、工作量较难预估、建模效果事前无法准确预估等特点；简单来说，两者的差异类似于按部就班与即兴创作。

这里打个比方，虽不精确，却很形象。挖掘建模过程有些像爱迪生发明白炽灯的过程，

灯丝材料、灯泡形状及容积、灯内真空度、外界施加的电压等自由度需要反复不断的尝试，才有可能达到预设的建模目标。

数据科学是数学与统计知识、计算机知识、行业知识三者结合的跨领域综合学科，这从内在决定了挖掘建模工作的跨领域性质，同时对建模人员也提出了较高的要求，通常需要模型人员具备丰富的业务领域知识、优良的建模技术基础、严谨的逻辑思维能力，同时还需要具备敏锐的直觉和科学、开放的探索精神，唯有这样才能在理解业务问题后最大化地从数据中萃取出知识，从而完成数据驱动业务的目标。

量化风控领域的一次成功实践

从万有引力定律到银行业数据挖掘模型 —— 数据驱动业务的机理与一次量化风控实践

图3 零售贷款贷后风控中常见的问题

银行业传统的零售贷后风险管理主要依据专家经验进行人工决策，贷后监测的关键指标多为欠款天数、欠款金额、五级分类等风险事后统计指标。贷后监测工具的滞后导致了我们风控管理上的被动。无法量化、精确区分贷款风险，针对贷款的干预没有体现差异性，管理资源无法得到有效利用，资产质量较难预估和控制。这些问题的根源来自我们无法对零售贷款的风险进行事前量化与精准预测。经济进入新常态、利差空间收窄、新资本协议推行、互联网金融介入等因素导致银行业经营压力持续增大，同时资产质量管理面临更大的挑战。传统的零售资产管理工具及手段将不再适用于未来的泛同业竞争，高效、精准地识别风险是零售资产管理需要建设的核心能力之一。

近年来，民生银行积极探索如何将机器学习技术应用于行内的量化风控管理实践，在“凤凰计划”三期，零售资产管理优化项目的早期预警系列模型的构建过程中，我们遵从CRISP-DM规范完成了全系列模型的构建及部署。

从万有引力定律到银行业数据挖掘模型 —— 数据驱动业务的机理与一次量化风控实践

图4 基于CRISP-DM合理有序地开展建模工作

以该系列模型中的小微长期预警模型为例：(1).在数据准备环节，我们准备了丰富的客户、产品、资产、交易、风险等维度的行内数据以及征信、工商、银联等维度的外部数据。(2).在模型设计的目标定义环节，基于数据多次测算，和业务部门讨论后我们将目标定义为“预测贷款在未来一年内是否会发生60天以上的逾期行为”。(3).在模型设计的采样环节，我们针对小微贷款的期限特性采集了15次滑窗总计超过300万的样本，前12次滑窗样本组成训练集（用于模拟“历史”）进行模型的训练。(4).在开放性探索环节，此环节需要建模人员进行大量的数据科学实验。变量的设计与丰富以业务知识为源、机器学习为工具，两者相辅、迭代优化，共同完成变量的发掘和动态优化，最终沉淀出可有力解释我行零售贷款风险的百余个核心变量。(5).在模型开发环节，我们秉持科学的探索精神，开放性地尝试了逻辑回归、决策树、朴素贝叶斯、支持向量机、随机森林、梯度增强机等多种算法，最终择优完成建模。(6).在模型验证环节，模型构建完成后需要采用新数据完成跨期测试，此环节我们采用了后3次滑窗样本组成测试集（用于模拟“未来”），对模型进行严格的跨期测试并完成多维度的性能评价，以此验证模型的真实性能。

图5 两种技术解决方案的效果对比

该系列模型前后反复迭代优化多次，全程历时近6个月，于2017年8月陆续上线。值得一提的是，在该系列模型的构建过程中，通过多项自主技术的应用，最终构建完成的大数据量化风控模型可以很好地区分高风险贷款和低风险贷款。相比于传统信用评分卡建模技术，我们的技术可获得精度更好、泛化性能更优的模型，模型KS值显著提升20%以上，远高于同业同类模型水平。

图6 早期预警系列模型的试点效果显著

贷款资产质量的劣化过程类似于人生病的过程，从亚健康、小病、大病到不治总是有一个发展过程。我们通过零售贷款早期预警系列（下月预警、短期预警、中期预警、长期预警）模型可以监控零售贷款贷后的全生命周期，实现贷款风险的尽早发现，做到防患于未然。系列模型中每个模型各司其职，分别完成缓解催收压力、减少早期逾期、压降风险贷款规模、监控资产质量变化与调整资产结构等目标。全系列模型的配合使用，可以让我们的贷款管理获得前瞻性、主动性等优势，很好地解决了零售贷后管理滞后、管理被动的问题。

经过在三家分行的试点落地，该系列模型的实际应用效果很好。该系列模型可以有效识别下月将发生临时性和遗忘性逾期的贷款，通过电催方式干预，缓解后期的催收压力。三家分行月中临时逾期压降幅度超过40%，成效显著。系列模型通过前瞻性的预测，提前锁定了目前并无明显风险信号但未来资产下行压力较大的贷款，试点期间累计主动退出高风险贷款2-3亿元，2018年在全行范围内实现了可观的零售不良资产压降。总体来说，该系列模型切实在贷后风控中做到了风险的早发现、早处置，对全面改善行内零售资产质量，助力零售业务大发展起到积极的促进作用。

结语

经过十余年的不懈努力，民生银行已构建起完善的信息基础设施，如今我们拥有着海量、丰富、高质量的内外部数据，这些数据蕴含着巨大的商业价值。大数据及人工智能等技术使得银行业通过挖掘建模从业务数据中探宝成为可能，如今民生银行已基于客户生周管理及业务场景等多维度构建起相对完善的挖掘模型体系，他们极大地提高了业务及管理效率。“数据+技术”的双轮驱动使得新的增长模式成为可能，民生银行正朝着数据化、智能化科技金融银行的战略目标快速迈进。

以上是关于从万有引力定律到银行业数据挖掘模型 —— 数据驱动业务的机理与一次量化风控实践的主要内容，如果未能解决你的问题，请参考以下文章