融慧金科张凯:知识图谱与图神经网络模型在金融科技的应用
Posted 融慧FinTell
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了融慧金科张凯:知识图谱与图神经网络模型在金融科技的应用相关的知识,希望对你有一定的参考价值。
近日,爱分析在北京举办了2020爱分析·中国人工智能高峰论坛,融慧金科AI Lab负责人张凯博士进行了题为《知识图谱与图神经网络模型在金融科技的应用》的主题演讲。
张凯博士提出,在过去五年以及未来五年内,图神经网络将会有良好的发展趋势。而图神经算法在反欺诈、反洗钱和金融风控底层能力建设的应用能够有效提升模型效果。
张凯博士:大家下午好,非常感谢爱分析各位小伙伴的辛苦准备。作为金融科技的代表,今天和大家分享一下知识图谱和图神经网络在金融科技的一些应用案例。
在演讲之前先给大家介绍一下过去几年图数据库的发展趋势,图数据库实际上是一个底层的数据库,支撑上层的知识图谱。横轴代表从2013年到现在的发展时间,纵轴是整个图数据库在网络上受欢迎的程度。不同的曲线对应不同的数据线,可以看到上面最陡的这条曲线呈指数级增长的就是图数据库。据尼尔森咨询的预测,这个趋势会持续到2025年。下面相对来讲比较平缓的数据库包括传统的关系型数据库,以及传统的搜索引擎。这是国外的一个比较专业的数据库的咨询网站叫DB-Engines.com所整理的信息。所以说图数据库在过去五年以及未来的发展趋势是非常良好的。
再看算法层面的一些背景信息,挑出2020年KDD,一个世界顶级的数据挖掘会议的关键词,即基于今年KDD接收到的论文里面提取出这些关键词的频率和频次,可以看到在中间字体最大的、最醒目的
是
图神经网络。其他的如深度学习模型、神经模型等相对来讲字体比较小一点,因为它们其实在过去的3-5年已经形成了一些比较成熟的模型架构和一些应用方案。比较有意思的是深度神经网络模型以及关联网络在过去几年一直是两条平行线,但随着图神经网络的应用,这两条平行线终于有机会走到一起,基于图数据库基础上的算法已经成为最近2-3年非常火的议题。
2020 KDD数据挖掘会议关键词
回到金融科技,基于知识图谱和图神经网络的应用具体分三块:
第一块,反欺诈。可分为交易反欺诈和信贷反欺诈。反欺诈的本质会捕捉两类特征:一是极端异常的交易特征或者是信贷申请特征;二是偏集中度类的,如团伙欺诈。
第二块,反洗钱。反洗钱和反欺诈在本质上非常像,有两类传统的特征可以捕捉:一是拉帮结伙,就是团伙的欺诈或者是团伙的洗钱;二是顺藤摸瓜,发现一个坏人后,上下游的坏人也可以顺应找出,这两类场景适用于反欺诈也适用于反洗钱。
第三块,金融风控底层能力上也有一些可以实践的经验。这是融慧金科在和合作伙伴一起做的事。基于图数据库的底层建设在图分析、图挖掘、图模型方面,对传统关系型数据库或者是传统的深度学习模型能够起到一个非常大的增益效果。
融慧金科基于知识图谱的关联网络平台包括商业分析指标,反欺诈分析,即结合金融业务场景,进行团簇细节、上下游分析的关联节点、历史轨迹以及最短路径分析,这些都是比较经典的关于知识图谱的算法;融慧金科不光支持离线计算,也支持毫秒级的实时计算和监控;案件调查是比较有特色的“人工智能”的场景,如结合关联网络平台的智能工具对催收人员进行审查;名单库是金融风控领域常用的黑名单库或者黑种子,是逐渐基于业务的实践经验沉淀起来的;最后是基础的数据记录,将数据从传统的Excel表格或者其他关系型表格导入。
下面给大家看一些具体案例,一是在反欺诈方面,二是在风控能力底层建设方面。
我将用三个案例来展示融慧金科知识图谱平台的应用场景。
案例一是团伙欺诈识别的案例
,对象是一个线下做非法贷款的中介,中介虽然做了搬家的处理,但是融慧金科有效的在他搬家之后仍然能够抓到这个中介的特征。具体来看,最左边这个团簇是最大规模的一个团簇,策略人员在分析这个团簇的时候发现里面有四个比较可疑的地点,其中3个地点集中在一块,两个地点相隔10公里。进一步结合时间轴去看,发现该中介集中贷款申请批次分成两批,第一批在2019年1月份之前在第一个地点,第二批是在2019年2月份之后,在第二、第三和第四个地点。再进一步分析,发现其实是中介机构地点的转移,他第一次在地点一的时候被融慧金科的风控策略给拦截住了,这个中介也很聪明,进行搬家,搬到十公里之外的一个地点。但是这些犯罪分子不舍得把他的路由器给丢掉,带着路由器去到新地点。但是路由器背后的SSID已经被我们的系统拉黑了,所以通过这个办法有效的阻止了团伙欺诈。
案例二体现了节点重要性以及最短路径分析,
这是很经典的在图方面的算法,现在我给大家演示一下这些算法是怎样应用到业务上面。中间是一个比较大规模的团簇给拉出来了,拉出来之后如果策略分析人员想做比较高效的分析。首先可以做节点重要性的分析,比如在这张图里面最重要的五个节点,通过快速的运行算法,可以发现最中间的地理位置的图表关联的手机设备是最多的,这毫无疑问是最重要的一个节点,以及最上面的Wi-Fi的设备以及手机号IMEI,右边的手机号以及左边的手机号是排名前五的最重要的节点。基于这五个节点,策略分析人员能从一张比较大的网中抓到一些比较重要的信息。最短路径分析在这张图红圈圈出来两个,一个是一个Wi-Fi设备,第二个是一个安卓手机,我们想关心这个安卓手机是怎样跟着Wi-Fi设备以最短路径连接起来的,可以看到这台安卓手机来到某个地理位置,在这个地理位置其实另外一台设备也来过,另外一台设备其实连接了一个黑的Wi-Fi,通过最短路径分析可以非常高效的把隐藏的关系快速抓到。
案例三是关于团簇随着时间变化的生长情况。
时间切片在整个金融风控领域非常关键,因为风险本身会有一些滞后性,融慧金科平时在做模型或者策略分析的时候,一定要基于过去预测未来,所以时间层面的一些变化比较关键。现在看到这是一个非常简单的单线条的一个变化:2019年11月-2020年2月,这个网络逐渐开始生长,4月份之后这个网络已经长的非常庞大了。如果能够在早期的时候,如在2019年12月份的时候,提前把网络的生长给抑制住,就能避免以后大规模欺诈可能性的发生。
以上是我给大家分享的反欺诈场景的应用案例,接下来给大家看一下在底层的风控能力建设上融慧金科做的东西。
这是融慧金科基于知识图谱搭建的一个关联网络的架构,这个关联网络架构完全是基于图数据库搭建的,可以有效提升风控的底层能力。
最下面是存储层,将数据从传统的关系型数据库导入到图数据库里面去,并且有一部分图数据库是支持实时计算的。往上一层是工具层,最右面是融慧金科的生态伙伴提供的图计算引擎,相当于在整体的架构里面提供一个非常强劲的发动机。有了这样一个发动机之后,可以配备左边这些开源的计算工具,比如像Google和Facebook的深度学习计算框架。也会利用Spark做一些离线的分析。第三层的算法最理想的是做端到端的学习,当然也支持一些嵌入式学习或者做一些挖掘和分析模块。具体到解决方案层会分为四个维度,分别是人的维度、设备的维度、APP的维度和WI-FI的维度。产品层最典型的就是负样本的数据库,也就是通常所称的黑名单数据库。同时还会有通过关联的特征生出来的变量,以及可以输出给各大金融机构的标准模型。最后是根据金融机构的样本去量身定制模型,这是整体底层能力的架构情况。
基于这个架构,融慧金科在金融零售信贷场景有广泛应用。产品层的应用包括信用风险、欺诈风险、导流获客、额度授予等,在这些场景融慧金科生成了各种各样的特征和分数,比如Wi-Fi的黑名单、设备黑名单、APP黑名单等。最下面的图学习的模块会具体分为三大类:图分析、图挖掘、图模型,这里面有一些比较经典的算法工具是直接用的,有一些是融慧金科AI Lab团队写出来的。上面我圈出了两个红框,一个是社区发现,一个是GCN,这里会给大家分享一个具体的实例。
这是社区发现的一个应用案例,融慧金科做的事情是对借贷类APP进行社区分析,目的是希望提升APP分类精确度。实验设计分为分析流程和效果验证两个部分。分析流程方面首先会建构一个二部图,这个二部图基于手机设备和APP之间,能够学习APP和APP之间的关联程度。这里提供一些数据清理的小技巧,比如剔除安装比较少的长尾APP,来杜绝噪音的干扰。另外也删除了一些国民APP,比如我的设备和您的设备都安装微信,但不代表我们的微信之间有任何关联度。在最终的效果验证中,利用图模型自动识别、更新未被人工标记的应用标签后,对比传统的人工标注的APP精度,准确率能够从32%提升至89%,效果十分显著。
另一个案例是图神经网络模型,用了GCN的架构,它的好处是在不需要做太多人工标记的前提下能够跑出一个非常优异的模型。左边的是卷积神经网络模型的架构,参考的是2017年的一篇半监督的GCN模型架构,右边是样本情况。有标签的样本相对来说是比较少的,只有14万,大部分的18万样本没有标签,并且整体正例占比比较低。下面是实验效果对比,对比了一个基线模型,基线模型是基于传统的LR模型 ,AUC在80%左右,而GCN模型的AUC接近于满分100%。
以上我分享完了在反欺诈方面以及在风控底层能力建设方面的应用。
最后简单介绍一下融慧金科。融慧金科已成立三年,目前处在B+轮融资,其中A轮B轮都为红杉资本中国投资,也有国内外像华创资本、澳洲电信投资等投资。融慧金科希望通过科技让金融更智慧,以产品和服务为核心,以共享、共赢为理念,打造一个一站式服务的高端金融科技公司。融慧金科对标是希望做成金融科技界的苹果。
融慧金科的产品会提供控、获客、运营、系统一整套闭环的服务。风控标准化产品其实是40多个小的API的接口,这个布在融慧金科的云上,能够快速的给金融机构提供服务,快速建立甲乙双方的信任。右上角的获客是整个线上的金融业务里面必不可少的一环,甚至是最前端的一环。方案定制服务是指,标准服务已经不能满足现阶段金融机构的一些需求,所以我们推出了定制建模、定制风控等服务,更好的量体裁衣。SaaS服务是融慧金科过去三年中沉淀出来的一些可以模块化输出的软件类SaaS服务,比如像数据管理平台以及人行征信平台,包括今天提及的关联网络平台等等。
最后给大家看一下我们的一些典型客户的案例,包括银行、消金、互金、保险、信托平台。目前合作的付费机构有超过一百家,我们选择客户有四个标准,一是合规持牌,二是有品牌影响力,三是双方互相认可,四是有成长潜力的。另外,在互联网大厂整体的渗透率方面,基本上中国大部分的互联网大厂在做金融业务的时候其实都是在用我们的产品,这代表我们对整个互联网流量客群的了解是比较深入的。同时这也会帮助我们向持牌消金和银行推广,因为很多时候这些金融机构的线上业务也需要接入互联网流量。
以上是关于融慧金科张凯:知识图谱与图神经网络模型在金融科技的应用的主要内容,如果未能解决你的问题,请参考以下文章
关系网络技术与图数据库技术的发展
关系网络技术与图数据库技术的发展
会议交流 | 人工智能与机器学习创新峰会 - 知识图谱与图神经网络分会
###好好好###############基于图模型的智能推荐(含知识图谱/图神经网络)
1.特定领域知识图谱知识融合方案(实体对齐):金融产业产业知识图谱-基于内容匹配和图模型的品牌知识链指
知识图谱+金融