赶在2017年的尾巴,终于把几个模型做完并进入部署阶段,开心之余想到好久没更新我的小白数据分析师的文章啦~赶紧来补个功课!
关于CLV客户价值模型,其实本质就是想回答2个业务人员关心的问题:
(1) 这个客户已经为企业创造了多少价值?回答:客户X过去n年内消费XX元
(2) 这个客户将来会为企业创造多少价值?回答:客户X未来n年内将消费XX元
故而,CLV模型首先被拆成了两个部分:一是CCV客户当前价值模型;二是CPV客户潜在价值模型。
模型框架:
(一) Customer Current Value 客户当前价值模型
当前价值即衡量一个客户到目前为止为企业带来的收益及利润现值,这个相对来说比较好计算,这里为了便于BS人员使用,我们也支持了分品牌分渠道的计算。
(二) Customer Potential Value 客户潜在价值模型
潜在价值模型是基于客户当前客户关系和消费模式,衡量一个客户(用户)在未来一段时期内可能为企业带来的收益。
在前期的数据探索阶段,我了解到BS的客户每年的留存率并不高,例如2016年发生交易的客户里仅有约20%的客户2017年也会发生交易,这便为我们提出一个问题:是否应考虑先进行客户下期是否发生购买的预测?
于是,在潜在价值模型里我会进行两个预测:一是下期购买概率的预测,二是客户潜在价值区间的预测。这样两个指标的呈现也能更好地帮助业务人员进行人群筛选。
至此,完整的CLV模型如下图所示——
具体思路:
(一) CCV客户当前价值模型:直接进行数据计算,不再赘述
(二) CPV客户潜在价值模型:
(1) 模型数据选取
有关数据选取,在咨询了组里的服装行业专家小津姐和自己的多次尝试后,我使用了以下4个方向的特征数据:属性特征,交易行为特征,品类特征及季度特征。如下表所示,
这里值得一提的是,之前的模型中并未使用过品类特征和季度特征,然而在服装行业,客户明年购买与否和他之前在该品牌买的品类是高度相关的,例如买袜子的客户黏性就会偏低,因为袜子的可替代性太强,不一定要在这个品牌继续购买。至于季度特征,服装行业的季度差异性是较大的,例如客户可能仅对秋冬季服装感兴趣。于是,在属性特征和交易行为特征之外,我加入了每个客户历史上购买各个品类服装的数量以及各个季度的服装数量作为特征。
(2) 模型设计及训练
活跃客户和非活跃客户的差异性很大,会员库里几年前一直未交易的客户其实往往已经永久流失,所以在训练模型之前我们需要了解每年交易客户的构成是怎么样的。于是,我对2017年发生交易的客户组成进行了分析。
基于上图,我们可以发现,除了2017年的新客户,红框中的3类客户是我们可以来进行预测的。于是,我将全量的VIP客户划分为3大类,并加以不同的预测方法,如下图所示。
(3) 模型结果
- CPV客户下期购买概率模型
由于我们关注的是把会购买的人预测出来,所以在二分类器的阈值选择上,我们选择了0.45作为阈值,此时的正样本Recall率约70%,即我们能预测出来70%会购买的人。
此外,也有不少负样本会被误判成正样本,但是从逻辑上来将,这些负样本客户的购买与否随机性太强,但是他们的购买概率高即证明他们与下期购买的人群是十分相似的。从业务上来讲,若是能正确有效地触达他们,是有很大可能性使他们发生购买。
当然,在上述结果之外,我们还可以看到一些业务非常感兴趣的输出。例如,基于下面的特征重要性表和一些相关性统计结果,我们发现影响客户下期购买与否的因素中除了常见的交易行为特征,有不少是品类特征,如GRANDCAT_9,GRANDCAT_4和GRANDCAT_2。
举一个简单的例子,某一个女装品牌,其明星产品便是连衣裙,结合数据结果,我们也确实购买发现连衣裙的客户黏性更高,即这些客户的下期购买概率高。而另一个男装品牌,则是购买风衣和长裤的客户黏性更高。
此外,为了便于业务人员使用,我将区间做成了4档,便于他们进行标签筛选。
- CPV客户潜在价值模型
这里模型是直接预测到价值区间,最后的误差率维持在30%左右,这里我们也支持分品牌的计算客户的潜在价值。
至此,对于每一个客户,我们将形成完整的CLV模型预测结果。
(4) 模型应用
- CPV客户下期购买概率模型
1. 业务人员可以通过不同的区间选择达到更多地筛选会购买人群或更准地筛选会购买的人群
例如,
2.各品牌还可以根据特征重要性,更加了解自己的客户明星产品集中在什么品类。
- CPV客户潜在价值模型
1. 业务人员可以结合下期购买概率和价值区间更好地筛选人群。业务人员可以先筛选购买概率高的人群再选择所需要的价值区间的人群。
例如,一个针对高端的小范围活动,可以筛选高购买潜力和高潜在价值的人群。
2. 业务人员可以结合客户当前价值CCV和客户潜在价值CPV来进行差异性营销。