美丽的邂逅：当UML遇上Xgboost

Posted 2021-04-17 66号学苑

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了美丽的邂逅：当UML遇上Xgboost相关的知识，希望对你有一定的参考价值。

学习过机器学习的同学都知道，从大的概念讲，机器学习分为有监督、无监督、半监督和强化学习。其中，无监督在风控领域应用最为广泛的要数Clustering（聚类）和Anomaly Detection（异常值检测）两大派系。很长时间以来，Clustering都很不受待见，究其原因，主要有二：一是没有找到合适的应用场景，二是对于不那么合适的应用场景，没有进行多种方法的融合。

对于前者，各位同学可以想象一下，哪个行业，团伙欺诈最为猖獗和明显？毫无疑问，是互联网！举个最简单的例子：薅羊毛。单个人的薅羊毛行为，对一个平台的损失可以忽略不计，只有成团伙性质的薅羊毛才会带来巨额的损失。所以，从一个互联网平台的风控来看，可以毫不夸张地说，其只会在乎团伙欺诈（从欺诈分子的角度讲也是一样，只薅一根羊毛实在无意义，只有“一薅一大把”才叫爽）。这也是为什么，Clustering最开始在风控领域崭露头角时，选中了互联网行业。

对于后者，也就是不那么合适的应用场景，如何以Clustering为基础，做多种方法的融合，将是本文论述的重点。

Clustering最不合适的场景，要数那种单笔损失金额大，欺诈难度大的场景，以保险和金融最为典型。在这种场景下，团伙规模一般不大，通常为几人到几十人，上百人的就可以称为是重大案件了（相比之下，互联网的团伙大小通常为几百人/账号到几十万人/账号）。对于这种小型团伙，单靠Clustering已经很难看出异常了，这时，必须要靠多种方法的融合。说到多种方法的融合，黄姐姐最为欣赏的有两大算法：一是GMM（高斯混合模型），二是Xgboost，两大算法有异曲同工之妙：都是抱着开放的态度，不因一个feature而给出结论，告诉你yes or no。而是将其融合，从上帝视角和全局观来审视和定夺。如果算法也具有人格，那么这两大算法可谓是担负得起“海纳百川，有容乃大”这一夸赞了。

为了学习前辈们“有容乃大”的精神，Clustering在应用于金融反欺诈时，也必然需要两大“容”：一是同门“容”，二是跨门“容”。

一、同门“容”

举个例子，假设一个电商场景，绝大多数人都是在早晨9:00-凌晨1:00之间购物，这时，有个人在凌晨4点购物，单看时间，这个用户绝对可以说是异常值（上图中的UserA或者UserB），但实际上，这个人可能是好人（只是今晚失眠，为了打发时间购物），也可能是坏人，实在很难定夺。

但是，假设有一个这样的space，所有的用户就如上图所分布的那样。我们先通过Clustering把一些“长得像”的人聚在一起（称为cluster），再利用异常值检测的思路来判断其欺诈可能性，其欺诈信心指数就会高得多。这里，为了以示区分，我们不称其为“异常值检测”，而是称其为“异常群检测”。或者可以用一种更容易理解的说法来解释：一个人异常，我们不认为坏，一群“长得像”的人一起异常，我们才认为坏。这便是同门“容”最核心的理论基础。

如何定位异常群的中心值，想必算法大牛们各有各的方法，黄姐姐在此就不班门弄斧了。找到异常群的中心值后，就需要计算这个异常群的离群程度，进而判断其欺诈指数。这一离群程度的判定，应用最为广泛的当属Isolation forest（孤独森林，基于节点Level）和Auto-encoder（自编码，基于用户level）了。这里，要特别说明一下，在应用Isolation forest时，超平面不断地划分，最终不是把我们的目标打散成孤立个体（异常值），而是划分到我们Clustering的结果——cluster（异常群）。同样，对于Auto-encoder也是一样，可以利用异常群的中心值来作为计算，以判断这个cluster的异常情况（分享一个经验值，坏账率<2%的场景下，用auto-encoder效果较好）。

离群程度可以作为这个cluster是否有欺诈嫌疑的有效指标。例如，下图中的ClusterX和ClusterY。为了方便没有算法基础的人理解，我们可以简单地以重心的距离作为离群程度的指标。我们大概知道，这个space的重心在黄色圆点处，ClusterX的重心在橙色圆点处，ClusterY的重心在绿色圆点处。可以看到，ClusterX的重心与整个Space的重心距离更远，那么，往往这个Cluster坏的可能性就更大。

可能会有做策略的同学跳出来说，这样的话，是不是只能抓到那种包装拙劣的欺诈分子，包装精致的欺诈分子，往往“长得更像”正常人，或者说，他们更愿意往正常人靠拢。

其实不然，长得像不像，其实主要看feature选得好不好。就像黄姐姐在文章《如何通俗易懂地解释无监督学习》中所述，如果我们用体重来区分兔子和猫，通常是徒劳的。而如果我们选择用耳朵的形状来区分，才更有意义。其实，这也是信用风险和欺诈风险一个主要区别之一，即建模所用feature的选择和衍生方式不同。

二、跨门“容”

讲完同门“容”，我们再来看看跨门“容”。

跨门“容”，这里是指无监督和有监督的融合。有监督机器学习一直备受风控青睐，虽然有些有监督算法的可解释性极差，但奈何它准啊（比如回归算法）！

可以说，同门“容”解决了Clustering的先天弱势——只知道是不是团伙，不知道坏不坏的问题；那么，跨门“容”，其实解决了Clustering的另一个问题：到底有多坏。

在同门“容”篇末，我们遗留了一个问题，如何选择有效的feature。我们之所以知道要用耳朵形状来判断是猫还是兔子，而不应该选择体重，是因为我们太熟悉兔子和猫，这必然有“事后诸葛亮”之嫌。如果想做到能够选择有效的feature，我们要么靠深入虎穴，了解黑产攻击手法（卧底黑产，亲眼看到兔子和猫）；要么靠历史逾期标签来学习（案件分析，看图书认识兔子和猫）。

如果能够做到以上两点中的任何一点，通常按照离群程度做一个排序，就可以回答“到底有多坏”这个问题了。

但事实往往不尽如人意。我们或者没有人力去卧底黑产，或者因为历史标签积累过少，我们选择的那些看起来有效的feature/feature组合，往往稳定性较差。这也很容易理解，毕竟人眼所目及的范围太有限——我们能挑出来的feature/feature组合太有限。

为了解决这一问题，现在，有请我们今天的另一嘉宾登场——Xgboost（掌声在哪里！）

Xgboost近年来风靡算法届，主要原因就是方法简单粗暴，效果稳准狠快。关于Xgboost的原理，大家可参考文末推荐阅读[1]。

Xgboost可以有效解决上面讲到的“人眼所目及的范围太有限”这一问题。我们一是不需要过分苛责建模工程师一定要选择特别有效的feature，打通领域知识壁垒；二是可以给“到底有多坏”一个更为稳定可靠的评判；三是除了团伙欺诈，也可以包罗部分个体欺诈，实现总体评分，用于计算某些业务要求的硬性指标，如KS（懂得无监督原理的人知道，无监督算法不适用于用KS来评判，因为并非是对全量用户评分）。

我们可以这么理解，我们建立了一个两级评分卡：第一级采用了同门“容”，也就是UML体系内的Clustering和Anomaly detection融合，找到哪些人可能坏；第二级采用了跨门“容”，也就是将第一级的结果作为输入，用Xgboost进行有监督学习，判断这些人“到底有多坏”，同时还能顺便检测一些个体欺诈，以及第一级由于feature选择限制遗漏的其他团伙欺诈。

最后，黄姐姐还是要再次跟大家分享一次小平爷爷的话：不管黑猫白猫，抓到老鼠就是好猫。

算法那么多，有的简而美，比如UML，可谓是大道至简。有的稳准狠，比如Xgboost，可谓是有容乃大。如果算法也有人格，那么UML和Xgboost的相遇，必然是世界上最美丽的灵魂邂逅～

作者|黄姐姐HJJ

来源|知乎