平安壹钱包 | 图像识别在商户准入的应用

Posted 2021-04-07 AICUG人工智能用户组

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了平安壹钱包 | 图像识别在商户准入的应用相关的知识，希望对你有一定的参考价值。

分享嘉宾：何亮飞平安壹钱包风险管理部智能技术专家

素材来源：2019AI先行者大会

本次我们将围绕支付机构商户准入分享以下四个话题：

01 聚合支付与平安商户

02 商户风险及全面监控体系

03 图像识别在商户风险监测的应用

04 AI+风控的应用及展望

聚合支付与平安商户

在日常消费过程中，当用户向商户发起付款时，手机扫码背后往往隐藏着如下支付流程：首先，商户通过一个聚合支付的服务商，向第三方支付机构提交相应收单请求，第三方支付机构把这个请求上传到银联/网联，通过银联/网联发送到账户端，经过用户确认付款后再扣掉这笔交易的款项。如果扣款成功，回执会被一层一层的传递回来，最后通知商户收款成功。这个流程中包含了：商户，聚合支付服务商以及第三方支付机构等多方角色。今天，我们就是要看一下在支付过程中，这三方彼此间的关系。

聚合支付整合市场上多种支付方式（譬如支付宝、微信支付、壹钱包等），为商户提供统一的支付入口，并提供对账、资金管理等服务，帮助商户实现快速收款，及经营管理。目前市场上主流的聚合支付服务商包括平安商户、乐惠支付、收钱吧等，服务商的出现为商家和第三方支付架起了桥梁，帮助商家解决了支付渠道碎片化、支付场景碎片化、支付数据碎片化，及支付需求多样化等问题，加速了移动支付市场的下沉、繁荣，但商家的不规范行为也随着市场规模扩大变得愈发多样。

近年来，国家对第三方支付机构支付机构在商户身份核验、入网审核，及分类管理上都做了严格要求。作为国内第三大支付机构，平安壹钱包隶属于平安保险（集团）股份有限公司，是国内领先的账户服务与场景金融服务商，拥有网络支付、移动支付、预付卡发行与受理等多元化的行业资质。凭借领先的金融科技实力，壹钱包为C端用户提供安全、便利、简单的金融和消费服务，为线下中小微商户提供生意、生活的综合解决方案，更为企业提供支付、金融增值、及客户忠诚度管理等定制化服务，助力产业效率提升。

平安商户是壹钱包针对全国线下中小商户，尤其是四、五线城市及偏远地区小微商户，推出的综合经营解决方案，它为商户提供一码收单、资金管理、金融增值等经营管理服务，帮助商户低成本做好生意，提升效率，赋能经营。目前平安商户已覆盖全国20个省市、1500个区县，服务近200万家商户，是国内广大中小微商户信赖的生意帮手，而其商户群体质量及支付交易安全性的保证，则有赖于壹钱包健全的商户风控管理体系。

商户风险及全面监控体系

我们先来看个例子，从事非法交易（如博彩、诈骗）的商户，为了获取更有效的收款手段，会伪造资料（比如冒用他人证照信息）通过为聚合支付拓展业务的服务商进行进件。如果第三方支付机构或者收单机构不严加审核的话，就可能给这些伪冒商户发放收款码，为他们提供完成收取和转移非法资金的途径。在这个例子中，涉及到商户风险的几个方面：

风险主体：商户法人

风险特征：博彩、诈骗、业务量异常

可能后果：无法反查，追回损失

第一个是风险主体，在本例中，商户法人是这个事件的风险主体。第二是风险特征，一个是从事的行业或职业是非法的，如博彩、诈骗。

第二是业务量可能有异常。比如说服务商，他能拓展的商户量是在其历史拓展数量的均值附近，拓展商户的形态也会和历史的类似，如果某天拓展商户的形态发生了很大的变化，就会有一些风险。

第三个是造成的后果，如果一个商户是伪冒的，事后发现其诈骗，我们就无法通过反查追踪到诈骗者，更没有办法追回损失，因为他的信息是假的。那么怎么来应对这样的风险呢？

平安壹钱包是有一个风险监控的框架，分成三个阶段，一是事前的准入，二是事中交易，三是事后的反查。

在事前准入阶段，主要监控，风险的主体、风险特征、业务观测。比如监测渠道商、法人、销售，这些主体会有一些风险的特征，包括虚假进件、伪冒进件、潜伏进件等。

在事中交易阶段，监控的主体包括：商户、支付渠道和用户，他们的风险类型主要是会出现一些非法的交易，比如说博彩、诈骗，还有一些灰色的刷单交易、异常交易。

在事后反查阶段，会针对一个具体的案件，分析风险主体，风险特征和交易量，然后从整体上去把握风险发展的态势，判断对整个商户的影响是怎么样。这就是平安壹钱包的商户监控的框架。我们可以看一下这个框架背后有哪些技术点。

在事前准入阶段，目标是打击虚假、伪冒、潜伏进件。

第一系统会根据已有的名单库做自动查询。比如当一个商户来申请特约商户时候，系统会通过工商信息查询商户的工商信息是否真实，该法人是否在黑名单中，以及该法人是否真实。

第二是图片智能审核。在申请成为特约商户的过程中，商户需要提交一些图片材料，系统会通过OCR来做文字的采集，并且通过场景识别图像算法，检查提供的场景是不是符合其经营范围，再通过一些水印照片、重复照片的算法，检查提交的照片是否真实有效。

第四，统计进件的这批商户的形态，比如地区的分布，行业的分布等，这些都可以作为一个业务观测点。

在事中交易阶段，目标是打击非法。

第一，系统会有一些赌博、诈骗、商户等级评分的模型，通过这些模型可以判断商户的风险有多大。

第二，会有一个刷单、套现交易、额度调整的模型，通过额度调整的模型去严格控制商户的刷单行为和套现行为。

第三，会监控整个商户在交易过程中的一些异常。比如时间、地点、额度等方面的异常。

第四，会关注商户日常的一些交易情况，比如说某个行业的商户，整个行业的交易情况是怎么样，每个地区的交易情况是怎么样，具体商户的交易情况是怎么样，这些都可以作为风险业务的一个指标。

事后反查阶段，目标是追根溯源，反向定位。

平安壹钱包有一套图数据库和图算法，风险用户通过某些关联关系，可以把可疑的商户给关联出来。那怎么关联出来的呢？

第一，可以通过一个自定义的反查，针对任意可疑对象为中心，探查存在风险关系的商户群。

第二，是以事件为中心，来反查这个风险关联的商户群。

第三，根据高危的一些商户，自动的侦测他的异常关系聚集商户，然后高亮提示审核人员进行处置。最后还可以做一个团案的审核，就是如果针对团案，可以做一个批量调单，沟通及处置。

以上三个阶段大体就构成了一个商户风险监控体系。

图像识别在商户风险监测的应用

接下来我们分享一个例子，在事前准入阶段，智能审核场景下，图片识别是怎样被使用来检查商户质量的。

在这个环节的目标是判断该商户是否真实。主要可以从几个方面来看，第一，他应该是一个真实的法人。第二，他应该有一家真实的店。第三，他应该有这家店的经营许可。在提交材料的过程中，商户会提交法人的身份证照片，营业执照的扫描件，还有与该营业执照、商户名相符的门店的照片。

那么怎么来判断这些照片是否真实呢？前面的两个，因为他是一个比较规则的场景，所以我们用OCR的方式把文字给抽取出来，然后通过比对系统做一个智能的校验。

最后一个是门头照，是一个场景的图像识别任务，场景识别是有一些难点的，比如他两类之间是有一些相似的，然后类内之间是有一些差异，所以需要用一个场景图片识别的方法来解决这一个问题。

如果通过人工审查的方式，主要的流程是这样的：商户提供了一个符合要求的门头照，和符合要求的室内照，通过肉眼查看，如果上传的不符合要求，比如上图中的照片，就是一个拍摄不全的，随意上传的一张非门头照片。那么人工审核是可以看出来的，然后拒绝审核通过。

人工审核面临挑战是什么呢？第一就是平安商户日进件量是比较大的，每天都是成千上万，需要大量人力来做这个审核。第二，比如说像左下角拍摄不全这张照片，有些人审核觉得是ok的，他觉得我可以看出来这是一家正常的店，但是有些人觉得是不行，因为拍摄不够完整。所以人工审核依赖于人的主观判断，造成标准不统一。第三，如果是人工进行审核，每天成千上万张图片被分配到比如N个人，如果有重复虚假图片被分到了不同的人上，那就没有办法被发现。

那图片识别，我们要用到一个什么样的技术？

我们会用到一个工具，就是卷积神经网络，他是通过卷积核挖掘多层的非线性隐含的规律，来做一个图片场景的分类。

这是一个基本的卷积网络的结构，我们可以看到他是由卷积层、激活层，池化层组成，作为一个特征提取的结构，然后通过全连接层综合各个特征并进行激活，最后用softmax进行多分类。

那么在众多的卷积神经网络结构中，怎样来做一个选型？我们可以从历年的ImageNet比赛中找到一些灵感。比如从上图中网络结构发展脉络来看，2012 ImageNet比赛冠军的一个网络结构，叫AlexNet，是一个8层的神经网络结构，在2012年已经算是一个非常深的网络结构了。他是通过了三种尺寸的卷积核，和一些防止过拟合的技术，比如说ReLU激活函数、Dropout、数据增强等方式，拿到了当年的比赛冠军。

接下来我们看一下2014 年的VGG19，VGG是牛津大学计算机视觉组实验室的简称。在AlexNet的基础上，把网络层数加深，加到了19层，就是16层卷积网络加3层全连接。与AlexNet不同的地方是在于他只采用了一个3×3的卷积核，通过更多层抽取更高阶的特征。

同年的还有GoogLeNet，是一个22层的Inception结构，VGG19是AlexNet基础上层数加深，GoogLeNet做了一个创新，提出了一个Inception结构。在这之前的AlexNet、VGG等网络结构都是通过增加网络的深度（层数）来获得更好的训练效果，但层数的增加会带来很多负作用，比如Overfit、梯度消失、梯度爆炸等。Inception的提出则从另一种角度来提升训练结果，它能更高效的利用计算资源，在相同的计算量下能提取到更多的特征，从而提升训练结果。2014年的时候，拿ImageNet比赛的冠军。

2015年的冠军网络是ResNet，它的层数非常深，152层。他为什么可以训练到152层，是因为他又创新地提出了一种新的网络形式，叫highway。在每两层卷积网络之间，他会加一个捷径，从输入到输出，可以做一个等值映射。

以前如果我们没有这个捷径会怎么样呢？就是说如果从上一层到下一层，通过卷积提取特征以后，我想保持一个等值的映射，这个卷积层是要学习很久的，但是如果我加了一个捷径，中间的这个卷积层的学习过程就可以加速。加速原理是，认定他所有权重为零，这样他就可以做一个等值的映射，同时这个结构非常利于梯度的反向传播。

ResNet的错误率可能比Googlenet要低一倍。当然ResNet并非网络越深学习效果越好。网络在110层左右的时候，效果最佳。我们在做这一个场景识别的过程之中，开始也用了AlexNet、GoogLenet、ResNet，，并比较了一下各自效果。我们发现 GoogLenet，由于他自身的Inspection结构，是一个不同尺寸的聚合结构，因此他能提取的更加丰富的特征。并且由于GoogLenet有参数量优势，在识别效果和训练难度上面都有优势，所以最后选择了GoogLenet。GooLeNet参数量是AlexNet的1/12，是VGG的1/6。参数量少的优势在于，训练的更快，需要的训练图片更少。

在这个场景中，历史的图片数量不够，不能从头到尾重新训练一个新网络。因此我们引入了一个新的工具，迁移学习，希望把一个场景学习到的知识用到另外一个场景，加速学习。迁移学习的优势有哪些？

首先，网络参数量很大，需要海量的数据来训练。举个例子，就是inception v3，（GoogleNet v3）有2500万个参数的。而且还是一个相对比较少参数的结构。

其次，大量的参数意味着大量的训练数据，需要更多的人来标注。比如说正负样本8000个，可能需要两个人标一周的时间，这个是很浪费时间的。

最后，任务相关场景存在着一些基础数据，如我们现在这个分类场景，他有一个数据集叫ImageNet，里面有1500万张图片都是已经标注好的，并了包括两2万个类别。这时，我们只需要迁移学习，通过GoogLeNet在这一场景下进行预训练则可应用。

迁移学习的一个基本的方法是模型迁移，是通过将原始域模型迁移到目标域模型实现迁移学习。比如上图，原始域模型，输入层读入图片，中间是若干隐含层，最后一个输出层，他的分类可能有1000个左右。我们可以把原始域模型的隐含层分成两部分来看，一部分是浅层的神经网络，一部分是深层的。浅层学习通用特征，包括色彩、边缘、纹理、基本的形状等等。深层学习具体的任务相关的特征。比如在浅层学到了圆圈和正方形这两个形状，在深层，就会把圆圈和正方形做一个组合，可能就出来一辆车子或一辆房子等。

知识如何迁移到目标域的模型里面呢？因为浅层的特征是通用的，所以我们可以直接把这个层迁移过来，然后在后面的深层部分，根据我们自己的目标任务来做一个修改，比如修改输出类别数量，隐藏层的数量，甚至可以把原始域的这个模型当做一个特征提取器来使用，我们只需在其后面加几层全连接层，最后再做一个分类就行了。

这里涉及到两个常见的问题：

第一，迁移多少层比较合适？这个可以根据目标域的训练数据的数据量来定，如果目标域训练数据数量量充足，可以微调或者迁移更多的隐层，重新训练更多的参数。如果目标域数据数量超级大，甚至可以重新训练整个网络。

第二，如何防止过拟合？首先，我们会做一些数据增强的工作。其次，我们会增加一个惩罚项，尽量使预训练的权值做微小的变动以达到更好的泛化能力。

接下来说一下该模型的应用，如上图。部署后，通过h5/APP提交门头照，然后通过判别模型，返回判别结果，这时会返回一个判别置信度，如果置信度比较高，会把这个判别结果直接应用到提交申请的环节，如果置信度比较低，会生成人工审核案件，同时会把这个结果存到业务数据库，定期通过离线的方式，重新训练优化模型，通过数据回放对比验证后替换上面的判别模型，提升在线的判别性能。

模型的准确率大概是92%左右，查准率（精确率）是96%，召回率（查全率）是85%。查全率不是特别高，因为线上提交的图片数据里面可能会出现非标准化的图片信息，比如菜市点、菜市场内部的店，或者拍摄不全，不同角度拍摄的店，这类图片都暂时不在我们训练数据集中。我们后续工作，一是会是在拍摄的环节加约束，指导商户按要求进行拍摄。二是，把这一些拍摄不太标准的图片，存到业务数据库，并添加到训练集中。通过后续迭代优化判别模型，提高查全率。

AI+风控的应用及展望

在这套风控系统的背后是我们沉淀的技术架构。简单叙述如下（如上图）

数据作为这个架构的基础，包含内部和外部两种数据。在数据基础上，我们做了一些平台，如决策引擎平台、AI云平台、图计算平台。以这些平台作支撑，承载我们沉淀的技术点，比如图像识别、自然语言处理、行为序列、知识图谱等。然后通过这些技术去驱动一系列服务，如案件审核、舆情监控、智能客服，实时团伙检测等等。最后，这些服务可以应用到各个场景，这样我们就通过这一套架构，快速的搭建出一套具体场景的解决方案。

最后简述一下应用该技术架构搭建起来的两个具体场景的解决方案案例：

应用案例一：智能合规。国家在规范一个行业发展的过程之中，会不时颁布行业规范。这些规范都会要求公司的合规人员去解读，然后落实到公司日常运营中。这个过程会有一些痛点：

第一，时间成本比较大，合规人员需要逐字逐句的理解，然后严格对比，造成解读时效性较差。

第二，人力成本比较高，金融业务是比较复杂的业务，每一条业务线都需要配备相应的合规人员。

第三，难以建立一个全局的体系，每个业务人员只关注于他自己的业务线，对于合规的解读，很可能产生片面。

在这些痛点下，我们提出一个方案：用智能合规系统来监控法规的变化，该系统可以做到个性化的定制，根据业务条线进行智能推送，支持用户多维度的个性化订阅。同时可以做实时追踪，爬取和分析中央、地区的监管政策，且检索效率比较高。并且可以多维度分析，也就是说做智能实体的抽取，然后产生相关标签。同时也可以关注主体发文的情况和监管主题的发展的趋势。通过该系统，极大的帮助了我们的合规人员。

应用案例二：舆情监控。作为一个第三方支付机构，需要对商户的舆情做监控。因此，我们提出了一个舆情监控系统，同样是分成了四个模块。

第一是实施舆情的监测预警，会全天候获取商户的舆情。根据获取的舆情，做风险评级，并预设报警等级，进行报警。

第二是多维度的舆情画像，通过多个渠道来挖掘信息，比如说微博、微信和新闻网站，或者是竞品的舆情报告。如微信、支付宝，都会对商户做舆情监控，通过获取这些信息达到联合防控，防止风险商户蔓延。

第三是实时的大屏展示，通过用户订阅关注的商户，查看舆情热度的排名。

第四是标签化，因为舆情最终要用到实际业务中，我们必须给他做一个标签，同时把他放到分享的标签库里面。

我们的一些AI+风控的解决方案也得到了监管机构的认可，被收录在了中国支付清算协会汇编红皮书与蓝皮书中，欢迎查阅和探讨。

近期直播分享报名啦！

1. 2.18直播 | 阿里云智能测温及社区防疫监控解决方案

2. 2.20直播 | HTAP混布数据库实现原理及相关案例分享

~使用钉钉扫码进群观看直播~

平安壹钱包 | 图像识别在商户准入的应用