对风控的理解

Posted ivyharding

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对风控的理解相关的知识,希望对你有一定的参考价值。

最近一直关注风控方向的知识和业务,我做下总结吧!

1. 技术篇

     机器学习算法(这个是最多的,要明白每个模型的优缺点,适用范围,对模型本身要理解透彻)

     深度学习算法:GAN,迁移学习,强化学习等新的技术

 

2. 基本理解

  (1)风控的定义:风控就是风险控制

          主要分为2大方向:信用风控(打分,芝麻分之类);反舞弊风控(很多黑产活跃在互联网上,你就要通过风控和坏人做对抗;这个对抗不能只停留在防御上,更多的要站在坏人的角度去思索他们是怎么欺诈的,怎么获取利益的)

          风险行为的定义:

                      账户安全问题:盗卡,盗余额支付

                      商家刷单:帅排名,刷销量,刷好评

                      用户作弊:”薅羊毛“,也就是获取一些优惠卷(通过反复注册新用户等行为)

     (2)风控的特性

    高对抗性:要24小时防御;因为有组织的找平台bug进行盗卡,或者是盗号这样的太多了。

     准确性:2个要素准确性和召回率(我们关注的是异常样本,宁可错杀100也不放过一个???其实这个准确度也很重要,把好的用户判别成坏的用户会遭到用户的投诉之类,不划算啊)

                 灵活性:人工对抗不合理,最好我们设计出的模型或者产品可以实现谁是监督,随时修改,实现一个自我判断学习的过程!

 

3.风控的整体架构  

      技术图片

风控的整体架构可以分为三个大的系统:

  1. 实时风控;
  2. 准实时风控;
  3. 离线风控。

区分的标准是根据策略的速度:

  • 实时风控:举个例子美团的实时风控要求必须为毫秒级同步返回,用户下单时必须要实时监控同步调用,每天亿级的调用量就要求每次调用不可以是秒级别。
  • 准实时风控:一般来讲几秒甚至几分钟以内返回都可以,因为采用的是异步调用事后处理,这种方式计算的数据量和可利用的数据量资源比实时风控会多很多。
  • 离线风控:一般通过 ETL 来做。

如图所示第二层是策略系统。策略系统时风控的核心系统,包含着规则、管理以及监控的功能。

策略系统在设计的过程中,最关键的是:

  1. 配置是否方便快捷,策略能不能够快速上线是决定性的要素。因为我们一般在上线之前,首先需要灰度测试→人工处理→机器处理,因此要去策略系统配置一定要方便快捷。
  2. 规则引擎性能要高。

最下面一层是特征库,具备黑白名单、统计数据以及特征数据等功能。特种库对于系统的性能应该是最重要的,因为亿级体量的数据量是十分庞大的,因此在设计时要用到一些大数据框架。

图中左侧的处理系统即统一的处罚系统,无论是对商家还是用户的处罚都会归到这个处罚系统中;右侧主要是一些公共组建,包含过载保护、报表、监控报警等等功能。这就是一个完整的风控架构。

 4.风控模型策略

技术图片

1. 异常检测

可以简单分为三种:

  1. 基于数据统计,例如同一个 IP 登陆成功率非常高,这是有风险的信号,背后可能意味着是同一伙人,100 个人不可能说一次性都能输对密码,违反常理;同样的,登录成功率非常低的,可能就是暴力破解、撞库。基于数据统计,可以找到异常特征。
  2. 聚类,聚类完成之后会有离群点,离群点即可判断为异常。
  3. 孤立森林,这个方法在异常检测领域效果最好,它的理论是将一个人的所有行为想象成一棵树,在某些分支上与其他分支出现了强不同,则该分支出现了问题。例如你同一台设备同一个 IP,导致你的行为都是类似的;但有的人同一个 IP 多台设备,很容易被这种方法捕捉到异常。

2. 知识图谱

技术图片

如图所示,知识图谱即多对多的关系,举登录的例子,设备 ID 与 登录 ID 未必是一对一的关系,同一台设备可以有多个人登录,同一个登录 ID 又可以在多个设备上登录,但重要的是一个人无法同时登录 N 个设备,同样 N 个设备也不可能被 N 个人登录,因此很容易捉到异常。

3. 用户画像

技术图片

 

以上是关于对风控的理解的主要内容,如果未能解决你的问题,请参考以下文章

传统风控大数据风控和智能风控的区别

AI 算法是如何改变智能风控的 | 文末赠书

干货 | 支付风控的数据仓库建设 (上)

《主动学习与半监督算法结合在支付宝风控的应用》

互联网金融做大数据风控的九种维度

如何建立大数据风控的框架