数据分析之风控

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析之风控相关的知识,希望对你有一定的参考价值。

参考技术A 上世纪90年代初,以美国运通(Amarican  Express)为首的美国信用卡金融公司开始运用数据建模来提升风控能力,解决精准营销等问题。Discover,Capital  One紧随其后

1995年,AMEX的风控模型开始试运行,1997年风控系统正式上线,此后几年,AMEX保持高速增长且把不良贷款降到业内最低

2008年,discover将全球数据分析中心搬到上海。从这个中心流出的风控人才,填充了中国各大互金公司

业务类型:有抵押贷(房贷车贷)、信用贷(比如宜人贷)、消费分期贷(手机家电等)、小额现金贷(500/1000/1500)等

风控涉及业务:1)数据采集:包括征信数据,运营商数据,爬虫,网站埋点,历史借款数据,黑名单,第三方数据等

                 2)反欺诈引擎:主要包括反欺诈规则与反欺诈模型。

                 3)规则引擎:即常说的策略。主要通过数据分析手段统计不同字段和各个区间的坏账率,然后筛选得到信用较好的人群进行放款

                4)风控模型&评分卡:模型算法之间并无显著不同,而是根据其发生的不同时间点进行划分(贷前/贷中/贷后),即目标产生的方式不一样。通常信贷领域都是以逾期天数来定义目标变量。A卡可以用客户历史逾期天数最大值,B卡可以用多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法

                5)催收:是风控的最终手段。这个环节可以产生很多对模型有帮助的数据,比如催收记录的文字描述,触达率,欺诈标签等等

1)爬虫可以爬取手机APP的信息。我们可以将手机APP分成4类:工具,社交、娱乐、金融。计算每种APP的个数,这样就有了4个特征

2)从运营商数据可以知道客户打了多少电话,发了多少短信,用了多少流量,是否有过欠费等信息

3)征信报告很多时候都是一个简单的征信分数,一般都是得分越高,客户质量越好

4)从基本信息中获取用户画像,比如从身份证中得到年龄、性别、户籍3个特征

黑名单的升级版本就是规则引擎。然而它是靠经验生成的。比如保险公司可能会拒绝连续退货5次或者退货比例达到80%的人购买退货险。规则通常需要投入大量的精力维护,不断更新修改,否则会造成大量的误判。对疑似套现金额、笔数超过一定数目,建议拒绝准入,或做重点关注。XX天内申请借贷数大于某个值,建议拒绝

比如我们可以设定一个准入规则,如职业为公务员、医生、律师等。

还可以设置直接放款原则,比如芝麻分大于750分

目标变量如何确定:以A卡为例,主要通过roll-rate与vintage。举个例子,我们可以定义在8个月逾期超过60天的客户为坏客户,8个月未逾期的为好客户。而八个月逾期在0-60天内为不确定客户,从样本中排除。

1)前期准备工作:不同的模型针对不同的业务场景,在建模项目开始前需要对业务的逻辑和需求有清晰的理解

2)模型设计:包括模型的选择(评分卡还是集成模型),单个模型还是做模型细分。是否需要做拒绝推断,怎么定义观察期、表现期、好坏用户。确定数据来源

3)数据拉取及清洗:根据观察期和表现期的定义从数据池中取数,并进行数据清洗和稳定性验证。数据清洗包括异常、缺失、重复。稳定性验证主要考察变量在时间序列上的稳定性,指标有PSI,IV,平均值/方差等

4)特征工程:主要是特征的预处理和筛选。评分卡主要是通过IV进行筛选。另外会基于对业务的理解进行特征构造,包括特征交叉(两个或以上特征相乘/相除/笛卡尔积),特征转换等

5)模型建立和评估:评分卡可以用逻辑回归,只需要做二分类预测可以选择xgb.模型建好后需要进行模型评估,计算auc,ks。并对模型做交叉验证来评估泛化能力

6)模型上线部署:在风控后台配置模型规则,对于一些复杂的模型比如xgb,一般是将模型文件转换为pmml格式,并封装。在后台上传文件与配置参数

7)模型监控:前期主要是监控模型整体与变量的稳定性。衡量标准主要是PSI(population stability  index)。其实psi 就是按分数分区间后,各个分数区间实际与期望占比的差异。如果小于10%,无需更新模型。小于25%,就需要重点关注模型了。如果大于25%就需要更新模型。计算模型psi一般用等频,可以分10箱

1.A卡B卡C卡含义与区别 

A卡(application score card):即申请评分卡,在客户申请处理期,预测客户开户后一定时期内违约拖欠的风险概率,有效的排除了信用不良客户和非目标客户的申请。同时对客户进行风险定价----确定额度与利率。用到的数据主要是用户以往的信用历史,多头借贷,消费记录等信息。

B卡(behavior score   card):行为评分卡,在账户管理期,根据账户历史上所表现出的各种行为特征来预测该账户未来的信贷表现。一是防控贷中风险,二是对用户的额度做一个调整。用到的数据主要是用户在本平台的登录、浏览、消费行为等数据。还有借还款,逾期等借贷表现数据。

C卡(collection  score  card):催收评分卡,对逾期账户预测催收策略反应的概率,从而采取相应的催收措施

三张卡的区别:

数据要求不同:A卡一般可做贷款0-1年的信用分析。B卡则是在申请人有了一定行为后,有了较大数据进行的分析。C卡则对数据要求更大,需加入催收后客户反应等属性数据

特征不同:A卡用到的大部分是申请者的背景信息,比如客户填写的基本信息,以及第三方信息。而且这个模型一般也会比较谨慎。B卡利用了很多基于交易的特征。

2.风控领域为何选择逻辑回归模型,有哪些局限性

1)首先是因为逻辑回归客群变化的敏感度不如其他高复杂度模型,因此稳健性好

2)模型直观,系数含义好阐述,易理解

缺点是容易欠拟合,准确度不是很高。另外对数据要求比较高,缺失、异常、特征共线性都比较敏感

3.为何用IV而不是WOE筛选特征

因为IV考虑了分组中样本比例的影响。即使这个分组的WOE很高,但是分组的样本占比很小的话,最终这个特征的预测能力可能还是很小

4.ROC与KS指标(ks在0.2-0.75,auc在0.5-0.9较好)

ROC曲线把TP,FP当作横纵坐标,而KS曲线把TP,FP都当成是纵坐标,横坐标是阀值。KS能找出模型中差异最大的一个分组,大于0.2即可认为有比较好的预测准确性。而ROC能反应整体区分效果

5.分箱方法与badrate单调

目前在行业里,大家用贪心算法进行分箱的比较多,比如best_ks,卡方分箱等。badrate单调性只在连续型数值变量与有序型离散变量(如学历/尺码)分箱的过程中才会考虑。至于为何要考虑badrate单调性,主要是出于业务理解,比如历史逾期越多那么badrate越大。

6.为何不同的风控模型,一般都不会选用相同的特征

被拒绝的人,是因为某些特征表现差。如果用相同的特征做重复筛选,那么随着时间推移,以后建模的样本里面就没有这些人了。这样特征上的样本分布就变了。

7.风控中用的无监督算法有哪些

聚类算法,基于图的离群检测,LOF(局部异常因子),孤立森林等

8.卡方分箱

卡方分箱是基于合并的数据离散化方法.基本思想是相邻的区间具有类似的类分布,则将之合并.而卡方值是衡量两个区间相似性的标准,卡方值越低越相似.当然也不可能无限合并下去,我们给它设定一个阀值.根据自由度与置信度得到.比如类别数是N,那么自由度就是N-1.而置信度表示发生的概率。一般可以取90%。

9.best-ks分箱

与卡方分箱相反,best-ks分箱是一个逐步拆分的过程。将特征值从小到大排序,KS最大的那个值即为切点,然后把数据分为两部分。重复这个过程,直到箱体数达到我们的预设的阀值即可。

10.拒绝推断(reject  inference)

申请评分卡是利用通过审核的授信客户的历史数据来建立模型,但是此模型会忽略原先被拒绝的这部分客群对评分卡模型的影响。需要通过拒绝推论来对模型进行修正,以便使模型更加的精确与稳定。另外,公司的规则变化也可能让过去被拒绝的客户现在能通过。适用于中低通过率的场景。

常用方法:硬性截断法---先用初始模型对拒绝用户进行打分,设置一个阀值。高于此分数标记为好用户,反之为坏用户。然后把标记后的拒绝用户加入样本中重新训练模型。分配法---此方法适用于评分卡。将样本根据评分高低进行分组,并计算各组的违约率。然后对拒绝用户进行打分并按照之前的方法分组,以各组的违约率为抽样比例,随机抽取该分组下的违约用户,指定为坏用户,剩下的标记为好用户。然后将标记好的拒绝用户加入样本重新训练

11.建模过程中如何保证模型的稳定性

1)在数据预处理阶段可以验证变量在时间序列上的稳定性,方法有:计算月IV的差异,观察变量覆盖率的变化,两个时间点的PSI差异等。例如我们选取1-10月的数据集,借鉴K折验证的思想,得到10组验证结果。观察随着月份的推移,模型的变化是否有比较大的趋势变化

2)在变量筛选阶段剔除与业务理解相悖的变量。如果是评分卡,可以剔除区分度太强的变量,模型受这个变量影响太大,稳定性会下降

3)做交叉验证,一种是时间序列上的交叉验证,一种是K折交叉验证

4)选择稳定性好的模型。比如xgb  随机森林等

12.怎么处理高维稀疏特征与弱特征

对于高维稀疏特征,逻辑回归比gbdt效果好。后者的惩罚项主要是树深度与叶子数目,这对稀疏数据来说惩罚并不严厉,容易过拟合。使用逻辑回归评分卡,则可以把特征离散化为0与非0,然后再进行woe编码。

如果用评分卡建模,弱特征一般会被舍弃掉。评分卡的入模特征数不宜过多,一般在15个以下。而xgb对数据的要求不高,而且精度好。一些弱特征进行交叉组合也许有意想不到的效果。

13.模型上线后发现稳定性不佳,或者线上的区分效果不好,怎么调整

模型稳定性不佳首先检查当初建模时有没有考虑特征的稳定性。在模型前期发现稳定性不佳的变量,考虑弃用或用其他变量代替。另外分析线上线下用户和建模时用户的分布差异,考虑在建模时增加拒绝推断的步骤,让建模样本的分布更加接近实际的整体申请用户

线上的效果不好可以从变量角度分析。剔除掉效果不好的变量,挖掘新的变量入模。如果一个模型已上线较长的时间,用户的属性也慢慢发生偏移,那么重新取数做下模型

14.怎么做风控模型冷启动

产品刚上线时,没有积累的用户数据,或者用户没有表现出好坏,此时可以考虑:           1)不做模型,只做规则。凭借业务经验,做一些硬性规则,比如设定用户的准入门槛,考量用户的信用历史与多头风险,可以接入第三方的反欺诈服务和数据产品的规则。也可以结合人工审核来对用户的申请资料做风险评估                                                                               2)借助相近模型的数据来建模。

15.样本不平衡问题

除了调整类权重以外,主要采用采样方法来解决。常见的有朴素随机过采样,SMOTE,ADASYN(自适应综合过采样)

16.运营商数据处理

根据通话日期,可以将通话记录分为近7天,近半月,近一月,近三月,近6月等时间窗口。也可以按具体日期划分为工作日、节假日等。根据通话时间,可以将一天划为凌晨、上午、下午、晚上。至于电话号码,一种思路是按照归属地划分为 省市,另一种思路是对号码打标签,根据电话邦、百度手机卫士、搜狗号码通的标记,区分出快递外卖、骚扰电话、金融机构、中介等。甚至根据业务积累区分号码是否是黑名单用户、申请用户或申请被拒用户。用户与不同号码标签的通话情况,可以侧面反应用户的通话习惯和生活特点

17.逐步回归

当自变量之间的关系比较复杂,对于变量的取舍不易把握时,我们可以使用逐步回归的方法进行变量筛选。逐步回归的基本思想是将变量逐个引入模型,每引入一个变量进行F检验,并对已经选入的变量进行t检验,当原来引入的变量在后面的变量引入之后不再显著时,则将原来的变量删除。以确保每次引入引入新的变量之前回归方程中只包含显著性变量

18.在逻辑回归中,为什么常常要做特征组合(特征交叉)

逻辑回归属于广义线性模型,特征组合可以引入非线性特征,提升模型的表达能力

部分引用文章: https://www.jianshu.com/u/0ce0500106d              https://new.qq.com/omn/20180115/20180115A0RUEZ.html                    https://www.ixueshu.com/document/6a3261ae85e489b8a3203036c687fe44318947a18e7f9386.html                                                                                                                                      https://www.e-learn.cn/content/qita/775233                                                                                https://cloud.tencent.com/developer/article/144 8182                                                                 https://www.shangyexinzhi.com/article/details/id-171268/                                                          https://blog.csdn.net/sunyaowu315/article/details/87162765                                                      https://www.yuque.com/rookie-ywx0p/sm8coc/ll43oc                                                                  https://zhuanlan.zhihu.com/p/56474197                                                                                     https://www.infoq.cn/article/jXwvkaB9t7mPWHxj9ymu                                                             https://cloud.tencent.com/developer/article/1489429                                                                  https://cloud.tencent.com/developer/article/1059236                                                                  https://github.com/taenggu0309/Scorecard--Function

破解“冲动消费”难题,“李佳琦们”掀起618“反效率”之风

“618快到了,你的购物车加满了吗?”这是“嘉鸽”对笔者的提问。

去年“双十一”囤的货,到现在“嘉鸽”都还没有用完,但面对各种“买赠”、优惠的冲击,“嘉鸽”又不自主地将购物车全部加满,这是“嘉鸽”对“囤货”最为切实的感受,或许也是不少“同窗”在大促期间最真实的写照。

在京东和淘宝天猫的造势下,今年的“618”似乎比往常来得更快一些。各家大力宣扬“简单实惠”的各种玩法以及对商家的扶持措施,已经率先将“618”进行了一波预热,而被称为“史上优惠力度最大的618”,似乎也凸显出今年618的格外不同。

“猫狗抖快”与618的“爱恨情仇”

事实上,“618”原本是京东的店庆日,或者说周年纪念日。京东是刘强东于1998年6月18日在北京中关村草创起来的。

最初,京东仅是一个简单的电脑销售公司,主要是从事线下代理销售光磁产品。2003年,“非典”的到来,给国家经济带来了巨大的冲击,而刘强东却在危机中抓住了机遇,进行扩张、转型。

2004年,京东正式转型到线上销售,不久后,刘强东创办了“京东多媒体网”(京东前身)。成功转型后的京东,每年都有大规模的大型促销活动日,这一日被称为京东优惠力度最大的一天,这也就是618的由来。

到了2013年,京东店庆更是将“618”口号喊向了全国。一系列的连锁反应产生,无论是地方超市还是各大电商、厂商,都开启了618促销活动。而作为竞争对手淘宝天猫、苏宁、拍拍等一系列电商大咖面对如此规模的流量和销售额,也陆续加入到“618购物节”中来。

2013年,苏宁618提出“双线同价,全网比价”的主题,分时间段进行不同品类的促销活动,品类包括家居电器、母婴等;同年,淘宝天猫年中大促来袭,时间线拉长至6月28日,“全民疯砍活动砍至5折起”、“亿元补助”、“天猫全民疯砍大牌比赛”各种优惠活动接踵而来,品类更是全类目参与,价格优惠力度堪称“上半年的双十一”!

步入2020年,受大环境因素的影响,线下购物受到冲击。在这种背景下,国内电商再次爆发,伴生于微信、抖音、快手等社交平台的“社交电商”也随之火爆,拼多多、“抖快”电商等后起之秀逐步崛起。面对618这样“吸金又引流”的“狂欢盛宴”,各家平台自然不能免俗。

2019年,拼多多首次全面入局618大促,宣布以“100亿现金补贴”的形式,联合品牌商家针对全网热度最高的10000款商品进行大幅让利。2022年也是拼多多踏足“618年中大促”的第四年,显然,面对“猫狗抖快”为主的“618”拼多多已经做好了准备。

2021年,将自己定位于“新市井电商”的快手电商以及致力于“兴趣电商”的抖音电商,也是首次正式加入到“618年中大促”,优惠力度不亚于“电商三巨头”。

而在社交电商爆发的过程中,“直播”也正以同样的姿态快速席卷整个互联网“江湖”。2016年“千播大战”的盛况更是犹在眼前,也就是从那时起,很多行业嗅到了“直播+”的契机。其中,又以电商行业最为典型。

2016年4月,淘宝正式发布直播功能,拉开了电商平台将直播作为“标配”的序幕,在papi酱的拍卖活动中,有50万人通过淘宝直播平台围观了该次活动,“直播+电商”引发了市场热议。

2021年,在短视频平台突然兴起的“直播带货”与传统电商平台在互动性、商品种类、转化率等层面产生了一些变化。在这波风口下,电商成为了直播的标配,而背后的主角也从电商平台延伸至抖音、快手、小红书等短视频、社交平台。

时至今日,在魔性爆单以及高转换率的作用下,“直播带货”已然成为各家平台乃至各类购物狂欢节中的“标配”。

野性消费背后:“精准消费”成潜在需求

但“618买什么?”、“618如何买?”这些话题,似乎成为每年“618”、双十一这些电商大促购物节中讨论最为激烈的存在。

微信指数显示,从5月12日起,“618”微信相关搜索量呈现大幅上升趋势。5月23日,“618”相关搜索量达到峰值超过1.09亿次,远超平常时刻。

对于消费者而言,“618”的到来,或许只是单纯意味着“囤货”时间的到来,每到这个时间购物车都会“装”满一大堆要买的东西。打开淘宝,面对“带货狂魔”魔性安利,大脑莫名短路不知为何花钱如流水。

一位从事电商运营的朋友对笔者提到,“目前仅是淘宝购物车商品数量就达到了49件,金额总和超过了16000元,其中有超过半数商品要在‘618年中大促’期间购买,这还不包括在京东、拼多多这些平台需要购买的物品,‘618’又是一笔不小的开支。”

于商家来说,每到“618”,部分商家会利用“先涨后降”、各种花式“买赠”的方式引诱大家下单,而很多人也是“无休止”地通过低价拼购、花式凑单等方式疯狂囤货,消费者越想占便宜凑单满减就越买越多,商家对此也是“乐此不疲”。

在“买到就是赚到”的心理暗示下,人们除了将购物车“装满”之外,还会准时蹲点带货主播的直播间,只为能够赶在618期间,买到“便宜”又“实惠”的商品。

特别是在主播的“倾情解说”下,消费者也容易极度“上头”,看到便宜、实惠的商品,就会“无脑”下单。但买来之后,会发现了不少商品或是重复的,或只是为了凑单而购买的,还有些可能根本用不到,单纯因便宜、价格低而购买的。

蒋先生向笔者反映,“去年双十一,为了给猫粮满减凑单,买了一堆用不着的商品,比如猫爪子剃毛器、一把懒人摇摇椅、卫生纸湿巾等,最奇怪的是“从来不穿秋裤,最后还买了一套”。

而为了能够在“618”期间,不踩雷、避坑,薅下更多的羊毛。各路大神不惜用上计算器和草稿纸,拿出核算报表的精神头,只为选出那个最佳的购买组合。建立购物节专用群,和各路兄弟姐妹拼单,交流学习最佳薅羊毛方案,也成“618”期间这些大神们的“基操”。

但一番花式操作下来,靠“精密计算”以及“组团拼单”所省出来的钱与之付出的精力、时间相比,也仅是“九牛一毛”。

“冲动消费”、“野性消费”过后,一些消费者或“抱头痛哭”,或“满声怨念”,直呼想要“剁手”,满脸惆怅的同时,也在感叹“之后要理性剁手”。

“理性消费”正重构直播带货消费逻辑

但仅靠自己建群、核算这些“野路子”,似乎远远达不到消费者想要的“效果”。

为了尽量避免消费者出现野性消费、冲动消费的现象,又能让消费者在这种购物大促中,达到想要“囤货”、“划算”、“省心”的目的各家平台和主播似乎开始“反流量、反效率”,纷纷抓住这一知识空档期,上线各类笔记、帖子。

小红书、知乎、微博等内容社区平台上,纷纷对今年“618”提前进行了一波预热。

仅在小红书,关于“618攻略”的笔记数量就超过4万篇+,其中就包括各家电商平台618具体大促时间、“2022李佳琦618攻略”等。

作为“618”主会场的“猫狗抖快”,自然也是不过放过进一步拉近与消费者距离的“好时机”。四家平台除了上线618的活动力度以及玩法的规则外,还针对于消费者进入主会场时间、预售以及各类参与主会场的品牌做出了相应的服务,让消费者在“618”期间不“迷路”,又买得省心。

前不久,淘宝对“价保功能”进行升级和完善,上线“价保中心”。大概率就是为了接下来的“618大促”中,避免让一些商家钻规则的空子,让“618”真正成为薄利多销,让利消费者。

于主播而言,为“消费者考虑”或许是更为必要的存在。

因为头部主播已不单单是将直播带货作为一种职业,而是上升到了一种品牌形象及信任影响,在直播带货的同时,更应该设身处地地为消费者着想,提升消费者的购物体验。

目前,像快手、抖音、淘宝等平台,不少博主上线了类似于“618攻略”的视频,如“彩妆博主仙姆SamChak”就发布了两期关于618省钱的作品;李佳琦则是在淘宝直播间用知识分享的方式讲述适合女生们的彩妆、护肤产品。

但一番对比下来,笔者还是认为“李佳琦直播间”所讲述彩妆知识以及“618攻略”详细程度更能被女生们所接受。

去年“618”的前一个星期,李佳琦直播间插入了“李佳琦小课堂”。在第一期的美妆小课堂上,李佳琦将同类产品放在一起讲解,让女生们根据自己的预算和肤质,选择合适的产品进行购买。

美ONE和李佳琦都很清楚,这样做有点“反效率”。

直播带货本质上就是流量生意,拉开与竞品的对比、竞争,才能提高消费者的购买率,但李佳琦却坚持要这样做,他认为“不能花很多冤枉钱在不适合的产品上,把化妆品、护肤品买对、买合适,才是一个BA最本质的衷心。”

为了让消费者更直观地了解预售产品详情与优惠力度,李佳琦在去年双十一自己当起了“课代表”,做了个Excel表格,将所有信息写了进去。用户可以直接点击产品名称,获取更为详尽的产品资讯。

这份超详细的Excel一经放出,#想和李佳琦学Excel#的话题就冲上了微博热搜。攻略文档的放出,让大家具象化目睹到李佳琦和美ONE的用心,但换个角度来看,攻略文档也仅是李佳琦和美ONE一直践行的核心价值观中的一环。套用一句诗词或许比较形象:“遍地梧桐树,引得凤凰来。”李佳琦和美ONE将梧桐树栽好了,自然会有源源不断的“凤凰”前来。

今年618,“李佳琦超级618”继续上线了“李佳琦小课堂”,课程涵盖水乳、精华水、面膜等品类,为消费者提供专业、省心的知识分享。而女生们翘首以盼的“攻略文档”也在“所有女生会员服务中心”小程序中做了升级,女生们可以使用“攻略文档”,对播品进行预约,当商品上播或者offer发生变化时,可以收到提醒,并在小程序中就能够生成预约清单,邀约好友一起拼单。

“让所有女生更加省心,理性消费、快乐购物”也不仅仅是美ONE和李佳琦直播间一句简单的口号,而是他们切身实地一直在做的利于消费者的实事。

在李佳琦这种“反效率”举动的作用下,直播带货也掀起了这种“反流量”之风,快手美妆首席星推官瑜大公子也上线了类似的攻略。但能够看到的是,不论是平台还是主播都在为消费者提供有价值的消费攻略,促进大众的理性消费回归。

本质上来看,摒弃各种五花八门的促销套路,让购物节回归优惠的本质。让“618”为大众服务,让购物成为一种“精细化服务”,做到真正让利消费者,或许才是电商平台在“618”、双十一这类购物节中需要思考的关键。于消费者而言,也更需要像李佳琦这样具有责任心和使命感的主播。

来源:松果财经

开发者涨薪指南 48位大咖的思考法则、工作方式、逻辑体系

以上是关于数据分析之风控的主要内容,如果未能解决你的问题,请参考以下文章

王者之风 联瑞推出千兆POE+智能以太网图像采集卡

王者之风, 联瑞推出千兆POE智能以太网图像采集卡

mapboxGL之风流图

DC域控服务器与辅助DC域控服务器之间的数据同步

openlayers入门开发系列之风场图篇

风控建模流程