数据挖掘在洋码头的风控与反作弊应用

Posted 洋码头技术

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘在洋码头的风控与反作弊应用相关的知识,希望对你有一定的参考价值。

符劼, 洋码头资深算法工程师
多年机器学习研究与实践,关注用户行为数据对电商行业的价值,目前负责洋码头搜索推荐算法平台



洋码头近几年的快速发展吸引了越来越多的用户和卖家,同时也吸引了互联网黑产的关注,优惠券套利,僵尸粉,垃圾信息等接踵而来,甚至有一些卖家通过自卖自买来刷单或者进行优惠券套利。这些不良行为,降低了平台营销的效果,影响了平台对卖家质量的评定,损害了平台内容的质量。

 

为了解决这些问题,洋码头近年来自研了一套风控和反作弊系统。目标是在事前对用户进行风险评估,限制高风险用户的特定行为以控制风险;事中检测出用户正在发生的恶意行为,及时终止对他们的服务;事后挖掘出没有在事中阶段检测出的恶意行为,进行相应的处理和补救。

 

本文介绍数据挖掘在洋码头的风控与反作弊应用。


本文约3000字,可参阅下面的大纲阅读。


    • 1. 我们对风控系统与反作弊系统的定义

    • 2. 系统框架

    • 3. 多元数据整合

    • 4. 风控系统

      • 4.1 构建用户关系网络

      • 4.2 风险传递模型计算用户风险值

    • 5. 反作弊系统

      • 5.1 场景1:防止用户非正常领取和使用优惠券

      • 5.2 场景2:文本内容检测屏蔽敏感词与垃圾信息

      • 5.3 场景3:图片相似度检测识别重复铺货商品

    • 6. 总结

    • 7. 参考文档


      1. 我们对风控系统与反作弊系统的定义


      风控系统与反作弊系统是两个相互依赖又相互促进的子系统:风控系统计算用户的风险值,反作弊系统判断用户的行为是否作弊。风控系统根据用户历史与当前的作弊行为计算出该用户的风险值;反作弊系统在判断用户的行为是否作弊时会依赖用户的风险值,同时结合当前的行为数据。


      2. 系统框架


      整个系统主要由数据层和服务层构成。业务方从服务层接入,后台运营系统同时接入服务层与数据层。

      数据挖掘在洋码头的风控与反作弊应用

      图1. 风控反作弊系统框架图


      因为系统依赖了全站整体的数据,如交易订单,优惠券领取,UGC内容,用户行为,和客户端埋点的日志数据,所以我们对数据进行了整合,首先需要将这些散落在各个业务线的数据通过Airflow统一接入到HDFS,然后在海量数据中解析基础数据,通过买家与买手各自的维度聚合出各类统计数据。利用整合之后的数据,构建整个系统中最为核心的用户关系网络与风险传递模型,模型的预测结果作为风控系统的输出,同时用户作弊行为识别,用户内容检测,买手作弊行为识别等组成了反作弊系统。不同后台系统中会根据各自的需求,获取风控与反作弊系统的输出结果。


      3. 多元数据整合


      数据层由数据接入和数据计算两个模块构成。各个业务端使用的数据库种类多样,包括SQL server, mysql, MongoDB,还有来自各个终端的日志数据(比如App端埋点日志)。这些数据的接入与计算统一由Airflow[1]进行调度和管理。

            

      图2是数据处理模块的局部截图,一个处理任务会有多个上游和下游数据处理任务,不同颜色的模块表示不同类型的数据操作。使用Airflow之后,数据处理过程变得标准化和自动化,任务可以定时调度,控制执行时间,追踪日志,当任务失败时会自动重试与告警。


      数据挖掘在洋码头的风控与反作弊应用

      图2. 风控反作弊数据DAG的局部截图

       

       

      4. 风控系统


      4.1 构建用户关系网络


      优惠券发放是电商平台提升交易量,提升用户购买转化的常用手段。每到大促时期更是会加大优惠券的发放量。电商在节省成本和提升用户转化之间需要有一个平衡,但是在没有风控系统的情况下,往往大部分优惠券都被羊毛党和黄牛领取,并不能提升有效用户的转化。洋码头风控系统会在用户享受优惠服务(例如领取优惠券)之前对其进行风险评估,如果存在风险则采取降级的优惠服务,甚至不提供优惠服务。


      通过大数据挖掘,我们寻找用户与用户之间的关系。用户之间的关系主要通过共同使用的身份信息,如支付账户,设备号等进行关联(称为媒介)。


      数据挖掘在洋码头的风控与反作弊应用

      图3. 用户关系网络,其中顶点表示用户、买手和媒介,有向边表示关系

       

      例如,用户A与用户B使用了相同支付账号付款,用户B又与用户C通过同一个设备访问洋码头App,这样A便通过B,关联到了C。通过这样的方式关联全网的所有用户,就构成了用户关系网络(图3)。用户与“媒介”之间有使用的关系, 用户与用户之间又会产生评论,关注等关系,用户与买手之间会有购买的关系。

       

      4.2 风险传递模型计算用户风险值


      基于用户关系网络,结合用户的各个统计维度的数据,我们计算网络中每个顶点的风险值。风险值的计算主要依据以下4点:

      1. 单个节点的关联数量

      2. 单个节点站外数据辅助

      3. 节点之间关系的强弱

      4. 单个节点站内的作弊属性(数据由反作弊系统提供)


      网络中每个顶点的风险会通过关系网络进行传播,在传播过程中风险分会根据边上的属性(使用频次,使用时间)和传播距离进行衰减,因此每个节点除了自身的风险分之外,还会积累他相邻节点的风险分。整个网络包含亿级的有效边和千万级的顶点。


      基于spark graphx计算顶点的传递风险与联通分量。为了防止高风险分对局部网络节点产生主导效应,我们限制了传播距离,即每个节点风险分最远的传递距离不超过2度关系的节点。最后对每个顶点的风险分进行归一化,使风险分的范围在0-1之间。在同一个联通子网络中,如果包含多个高风险的顶点,可以将这个子网络中的用户群体视为欺诈集团,其中的用户都视被为风险用户。


      5. 反作弊系统


      洋码头反作弊系统包含反欺诈和反垃圾两大功能。典型的应用场景包括:

      1. 用户批量注册小号领取和使用优惠券

      2. 在社区或者商品评论区发布虚假信息,造成用户和买手的损失

      3. 买手通过违规方式提升自己商品的曝光


      下面分别介绍洋码头反作弊系统在这几个典型场景中的解决方案。


      5.1 场景1:防止用户非正常领取和使用优惠券


      在用户领取优惠券的时候,用户当前的风险分是判断用户是否作弊的必要条件,同时依据领券的频率、次数决定是否发放优惠券。


      用户在交易中使用优惠券的时候同样会依据以上信息,并且结合用户下单前的行为,和买手与用户之间的关系,判断当前的交易是否存在刷单的嫌疑。


      5.2 场景2:文本内容检测屏蔽敏感词与垃圾信息


      用户和买手在洋码头上发布的内容,会经过敏感词检测和上下文检测的处理,对不良信息和垃圾信息进行屏蔽。敏感词的检测主要依靠分词与敏感词库,我们维护了5大类的敏感词库,分别是“涉黄、涉暴、政治、敏感”,“违反广告法”,“违反平台规则”,“存在资金、钱款安全风险”和“违反平台其他限制”。根据不同的业务模块,可以选择性的配置词库,并且对每个业务下的词库区分严重等级,对于严重等级高的,就直接进行屏蔽;对于严重等级低的,需要结合上下文检测处理。


      上下文检测根据已有的带标记的垃圾信息,通过FastText[2]训练文本向量模型。不同于Word2Vec,FastText包含了n-gram的信息,同时可以End-to-end的训练文本分类器。


      垃圾信息的特征变化多样,单一的从文本内容上检测会有疏漏,在实际的运营当中发现,部分推广营销性质的内容,可以逃过敏感词检测和上下文检测,所以在应用中还需要结合用户行为风险分。对于高风险用户发布的内容,我们同样采取屏蔽的措施。


      5.3 场景3:图片相似度检测识别重复铺货商品


      洋码头上存在一些买手重复上架同一个商品,对于同一个买手店中有多个相同商品同时在售,会影响用户的体验。简单的文本规则筛选和人工检查不但准确率低,而且会花费大量的人力成本。基于卷积神经网络(CNN)的图像特征提取,已经被证明是目前主流的方式。利用Inception[3]网络的输出,我们构造Siamese[4]网络,采用Fine-tuning的方式训练最后两层的权重。模型输入两个商品的图片X1和X2, 预测出商品的相似度Y.


      买手上架新商品时会将该商品的图片与该买手当前在售的商品图片进行比对,如果经模型预测的相似度高于阈值,商品监管后台会有提示该买手疑似有重复铺货的作弊行为。使用了这个模型之后,商品监管后台无需人工对每个新上的商品进行图像上的比对,减少了运营成本。

      图4. 卷积神经网络结构


      6. 总结


      结合洋码头现有的业务水平和业务需求,我们设计了基于大数据分析,以图模型,图计算为基础的风控反作弊系统,同时研发文本分析模型与图像识别模型,满足了优惠券活动,订单交易,买手增值服务,商品信息,社区运营等多方面的业务需求。创新的用流程化信息采集的技术,克服了传统行业风控信息不对称、数据维度狭窄、人工采集成本、效率低下的缺点。


      7. 参考文档


      [1] https://airflow.apache.org/

      [2] Bojanowski P, Grave E, Joulin A, et al.Enriching word vectors with subword information[J]. arXiv preprintarXiv:1607.04606, 2016.

      [3] Szegedy C, Liu W, Jia Y, et al. Goingdeeper with convolutions[C]. Cvpr, 2015.

      [4] Chopra S, Hadsell R, LeCun Y. Learning asimilarity metric discriminatively, with application to faceverification[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEEComputer Society Conference on. IEEE, 2005, 1: 539-546.


      全文完




      近期主题预告:

      • 缓存技术在洋码头商品领域的应用

      • 洋码头AB 测试系统

      • 洋码头推荐系统的演进

      • 洋码头自动化发布系统介绍


      关注【洋码头技术】,第一时间获取我们最新的技术分享推送。


      以上是关于数据挖掘在洋码头的风控与反作弊应用的主要内容,如果未能解决你的问题,请参考以下文章

      图谱相关技术在风控反作弊中的应用和探索

      大数据风控与权益保护的12条原则

      动态 | 《大数据风控与权益保护研究报告》之数据治理中的法律法规建设

      数据分析之风控

      如何“谨慎”使用“数据驱动”的风控模型-- 数据篇

      线上直播巨量数据下的风控