基于三明治结构深度学习框架的金融反欺诈模型研究与应用
Posted 安链云
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于三明治结构深度学习框架的金融反欺诈模型研究与应用相关的知识,希望对你有一定的参考价值。
作者|电子商务与电子支付国家工程实验室,英特尔, 众安科技
来源|众安科技
面临挑战
金融反欺诈面临新的挑战:互联网时代的到来,令金融欺诈行为变得更高频化和精准化,层出不穷的欺诈行为给社会生活带来巨大不安,传统的反欺诈方法和模型亟待予以改进来应对新的挑战。
深层次交易特征学习能力不足:基于规则和机器学习的金融反欺诈模型在对相对复杂的序列化交易特征进行学习时,效果低于预期,同时单一的深度学习方法也存在单笔交易内特征学习能力有限的问题。
解决方案
三明治结构欺诈侦测模型:电子商务与电子支付国家工程实验室、英特尔与众安科技一起,创新地提出GBDT->GRU->RF三明治结match构欺诈侦测模型架构,通过多层学习的方法规避序列化交易特征学习能力不足以及单笔交易内特征学习能力有限等问match题。电子商务与电子支付国家工程实验室和众安科技利用在金融行业的经验与人工智能建模能力,结合英特尔处理器产品,快速有效的完成了三明治结构模型框架的设计与应用。
影响
创新性反欺诈模型树立行业标杆:电子商务与电子支付国家工程实验室、英特尔与众安科技一起,创新性的利用多层深度学习方式来帮助金融反欺诈模型具备更优性能。模型在金融保险行业的多个场景中进行了试验应用,反欺诈指标取得了明显提升,表明这一方案具有广阔的实用前景,也为深度学习等先进技术手段在金融行业的进一步应用与创新提供示范。
背景
金融业务在给人们带来便利生活的同时,也带来日益严峻的欺诈风险。除了传统层出不穷的金融欺诈手段,例如信用欺诈、盗刷欺诈,恶意套现以及保险业骗保等,伴随互联网时代出现的个人信息泄露、欺诈黑产化等问题,也导致更高频化、精准化的欺诈犯罪,羊毛党、互联网欺诈等行为正在变得愈发猖獗。以银行卡为例,传统风险与新型风险相互交织,各类犯罪手法不断翻新,如图一所示,自2010年开始,全球银行卡欺诈损失率随着欺诈损失金额增长而逐年上升。2016年欺诈损失金额达247.1亿美元,相比2010年的4.5BP上升60%。
为应对这些问题,电子商务与电子支付国家工程实验室联合英特尔、众安科技,将丰富的反欺诈经验、优秀的建模能力与计算平台的优势结合起来,把前沿的人工智能技术引入反欺诈领域,构建一系列高效有力的反欺诈模型。
创新的三明治结构欺诈侦测模型
目前,金融行业对交易欺诈风险的侦测方式主要有两种:基于规则和基于机器学习算法。基于规则的方法是通过不断建立、更新基于交易行为特征的规则库,并在交易发生时,通过查询规则库判别交易潜在的风险。例如某便利店出现大额支付行为时,规则库就会去匹配这一交易行为是否具有异常特征。基于规则的反欺诈方法是基于对以往交易欺诈经验的总结与归纳,其主要依赖专家经验,存在一定的主观因素,且难免出现一些疏漏,在交易欺诈方式层出不穷的今天,存在一定的不足。
与基于规则的方法相比,基于机器学习方法的反欺诈方案具有更好的客观性及准确性。机器学习中一些优秀的分类算法,例如LR(Logistic Regression,逻辑回归), RF(Random Forest,随机森林)以及GBDT(Gradient Boosting Decision Tree,梯度提升决策树)等分类算法能够较好地学习到一些潜在欺诈模式,并已经被银联、众安科技等应用于反欺诈模型中。 但在实际交易场景中,特征工程可能较为复杂,例如深夜在便利店,一张很久不用的信用卡突然出现大额支付行为,或者一个病毒性感冒患者长期频繁就诊且开具巨额药品。这里出现了“深夜”、“很久不用”、“便利店”、“病毒性感冒”、“巨额”等多种复杂特征,对传统机器学习的方法提出了挑战。
针对这一挑战,电子商务与电子支付国家工程实验室与英特尔双方工程师前期进行流程化建模。在建模过程中,工程师们从少量的原始字段中衍生出数百个特征因子,并形成长短时统计、可信度等6个维度的特征变量,帮助模型进行更好的学习。
但该模型在实际测试和应用中,被发现仍存在一些问题,例如特征工程的建模与计算较依赖专家经验,同时基于机器学习的方式缺乏交易序列分析,在对纵向交易行为进行分析时缺乏一定效力。 因此,电子商务与电子支付国家工程实验室、英特尔与众安科技联手开展进一步合作,尝试使用深度学习方法来自动学习交易序列相关的特征。
方案中首先选用单一RNN(Recurrent Neural Networks,循环神经网络)方法,采用LSTM(Long Short-Term Memory,长短期记忆网络)方法或GRU(Gated Recurrent Unit,门控循环单元)方法来直接对交易数据进行欺诈侦测建模。但效果却不太理想。究其原因是RNN网络虽然能学习到交易序列间的特征关联,但对单笔交易内特征的学习能力只与传统浅层神经网络能力相仿,达不到预期的目标。
为了让新模型能更好地加深交易序列间特征关联的学习,三方专家提出一种创新的多层混合型欺诈侦测模型框架。这一框架采用了一种“GBDT->GRU->RF”的三明治结构。如图二所示,首先框架将针对单一RNN方法在单笔交易内特征学习能力不足的不足,在框架的前端引入GBDT模型进行进一步的特征优化,将优化后的特征与人工特征相结合,作为GRU网络的输入,以此来学习序列间的特征,并且能够将单笔交易内的特征时序化。
在中间层,框架也没有直接使用GRU网络的输出作为直接的欺诈侦测判别,而是将其作为序列间特征学习的一环,将学习得到的序列间特征与原先的交易内特征相结合,形成最终交易特征向量,在此基础之上,为进一步地将时序特征进行融合学习,框架最后还叠加了一个顶层的RF模型,作为最终的欺诈判别分类器,整体如图三所示。
针对新的深度学习欺诈侦测模型,三方工程师分别针对伪卡欺诈侦测,骗保检测等银行、保险业务常见应用场景,采用真实数据进行了多项仿真验证。GBDT->GRU->RF三明治结构欺诈侦测模型无论是在召回率还是在准确率方面都达到预期效果。与传统分类器方法或单一的RNN方法相比,该模型的F1值(一种准确率和召回率的加权平均值,用于衡量侦测模型性能)明显增大,部分场景下可获得1.5倍以上的效果优化。
例如电子商务与电子支付国家工程实验室在信用卡伪卡欺诈侦测场景中采用了GBDT->GRU->RF三明治结构模型。假设某一账号在深夜发生了若干笔小额支付行为后,接着发生了一笔异地大额交易,三明治结构欺诈侦测模型通过前部“GBDT->GRU”学习的过程,能够学习类似于将集成特性1(“深夜+小额”)与集成特性2(“深夜+大额”)之间的时序关系。该功能可以称之为将“集成特性的时序化”。而加上后部“GRU->RF”过程后,又能够进一步学习到类似于将时序特征1(多笔小额试探+大额套现)与时序特性2(当前交易地点与前几次交易异地)进行再融合的异常特征。这种将“时序特性的集成化”的功能进一步加深模型的特征学习能力。图四显示了在信用卡伪卡侦测场景中的实测效果,有效F1值可超过0.4。
众安科技采用GBDT->GRU->RF三明治结构欺诈侦测模型协助国家人社部识别用户骗保行为,有效提升了模型识别的准确率和覆盖率,最终F1增至0.591,极大减少医保资源的浪费,缓解医社保资金紧张等问题,将其导向真正需要帮助的人群。
除了算法设计上的独到创新,GBDT->GRU->RF三明治结构欺诈侦测模型取得的成功也凝聚着底层硬件设施提供的强大性能支撑。英特尔为模型提供了高效的英特尔至强处理器产品家族,其不仅在内核、高速缓存方面表现优异,并以大量的硬件增强技术助力框架性能。除了处理器产品外,英特尔也为模型算法提供深入而有效的优化方法和工具。
从模型到应用
电子商务与电子支付国家工程实验室智能分析及服务平台(IAaaS)综合运用国家工程实验室在大数据、人工智能、机器学习建模、图计算等技术方面的优势和经验,对现有业务模型、算法、输入和输出接口等业务接口内容进行封装和整合,对外提供智能分析服务和解决方案。用户通过调用封装后的API接口即可得到经过模型算法运算分析后的结果数据,从而更好的服务公司前台业务部门和合作伙伴,实现对创新支付业务的有力支持。
在欺诈侦测、骗保检测、借贷安全和反薅羊毛等金融保险领域,随着数据收集的日渐完善、深度学习模型尤其是序列型模型的逐步优化,深度学习也将有着更广阔的应用空间。通过离线和在线结合、冷启动和人机闭环配合,结合三明治模型,众安科技实现了高效的反欺诈体系,为业务运营提供了有力的支撑。
针对机器学习和深度学习在企业应用中需求碎片化、数据依赖、模型从开发到应用隔阂等痛点,众安科技推出了X-Brain机器学习开发平台,使用可复用的组件、统一的数据接口、规范的开发流程和完善的测试指标。X-Brain机器学习开发平台可以快速实现模型的搭建与调试,包括GBDT->GRU->RF三明治结构欺诈侦测模型、Faster-RCNN图像识别模型等。
工作总结及展望
传统基于机器学习的金融反欺诈模型对于序列化的交易特征学习能力不足,而单一方法的深度学习模型则对单笔交易内特征的学习能力有限,利用多层次的深度学习模型,可以最大程度上规避这些不足,提升反欺诈模型的工作效率和性能。
新的模型在电子商务与电子支付国家工程实验室及众安科技开展的多项测评中都取得了预期的良好成果,电子商务与电子支付国家工程实验室、英特尔与众安科技联手开展的新模型研究、开发与构建,为人工智能在金融反欺诈领域的应用提供了有益的经验和探索,为深度学习中众多新技术、新算法在金融领域场景的应用淌平道路。在未来,三方还将继续技术合作,将更多的先进技术和产品引入其中,加速金融反欺诈研究,将更多的金融风险消弭于襁褓之中。
联系我们
众安科技
众安科技成立于2016年11月2日,是由蚂蚁金服、腾讯、中国平安等发起设立的众安在线旗下的全资子公司。 众安科技汇聚行业内的顶尖科研人才,聚焦大数据、云计算、区块链、人工智能等领域的基础技术研发,开发了区块链产品业务线、保险业务线、智能数据业务线等,覆盖金融及健康医疗领域的上下游及周边的技术业务整合,打造先进的IT组织、强化基础支持核心业务,牵头探索互联网保险生态、健康生活、普惠金融的创新业务模式,向客户输出综合性的行业解决方案。
欢迎产学研相关单位与我们联系,进行相关研究与应用的交流合作。
众安科技联系人
孙谷飞: sungufei@zhongan.io
陆王天宇: luwangtianyu@zhongan.io
李玉娇: liyujiao@zhongan.io
电子商务与电子支付国家工程实验室
电子商务与电子支付国家工程实验室是由中国银联承建,于2013年经国家发展改革委审批认定的金融业首家国家工程实验室。实验室的建设目标是建成国内一流、国际知名的电子商务与电子支付研究基地,全面加强技术攻关,力争在全球电子商务、电子货币和电子支付技术领域占据领先地位。
电子商务与电子支付国家工程实验室联系人
郑建宾,赵金涛,李旭瑞
联系方式:lixurui@unionpay.com
英特尔联系人
俞巍:wei.w.yu@intel.com
王东方:dongfang.wang@intel.com
安链云
驱动未来的云服务
以上是关于基于三明治结构深度学习框架的金融反欺诈模型研究与应用的主要内容,如果未能解决你的问题,请参考以下文章
深度学习核心技术精讲100篇(七十九)-深度学习应用实战案例:携程金融自动化迭代反欺诈模型体系