活动节假日促销等营销方式的因果效应评估——方法模型篇

Posted 2022-05-03 悟乙己

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了活动节假日促销等营销方式的因果效应评估——方法模型篇相关的知识，希望对你有一定的参考价值。

笔者近两年都在做智能营销方面的探索，不过最近想稍微切换自己的研究赛道，所以最近想把智能营销方面细枝末节的一些思考发出来。
关于活动、节假日、促销等营销方式的因果效应评估前篇是《活动、节假日、促销等营销方式的因果效应评估——特征工程篇（一）》是把给入模型时特征加工的方式列举一下，本篇是想简单总结如何评价一个活动营销方式的好坏；当然方法本身不胜枚举，只能在有限视野里面进行归纳。

1 回归的方法

活动评价，与笔者之前思考的一个点也是有些共同的《数据科学之如何找到指标的最佳分裂点的几个想法》最佳分裂点其实就是在找不同特征下的重要性，我们可以来看一下。

如果将活动变成了机器学习模型中的一个特征，如《活动、节假日、促销等营销方式的因果效应评估——特征工程篇（一）》所述，有很多种方式，那么，活动变成模型的特征之后，活动好坏与优劣，就是评价这个特征的重要性了。

1.1 离散/回归系数

这个比较常见，直接看线性回归的系数就可以判断，来稍稍回忆一下《重复事件（表现形态：活跃、留存、复购）建模（生存分析）的案例学习笔记》中的一个案例，文章的【1.3.2 PWP-GT 重复事件建模在看点业务中的实际应用】，可以看到：

这里YY一下，比如打开时长a，均等切分为，[a0,a1,…,a6]，可能实际含义是[0h,1h,…,5h]，然后对活跃度=Y做回归，
这里的回归系数的显著性，就是指标合理的表现，
来YY解读一下这个图，[a0,a1]，[a1,a2]是不显著的，其他都是显著的；代表，打开时长在2h以上的是明显的，这是一个非常重要的阈值。
而且，还可以量化出来说，如果打开时长在[a4,a5]（[4h,5h]）那么活跃度会比[a0,a1]高出40%

如果要在显著的时间里面再画一个阈值，可以观察系数的增长幅度，比如：

那a4,4H就是一个非常好的新阈值点；所以离散回归是非常好的可以找到阈值、量化指标水平的方式。

1.2 树模型- 特征重要性

一般的树模型会根据每个特征进行分裂，那么每个特征的重要性也可以获得。

1.3 shap值

笔者一直觉得SHAP值的商业分析价值一直被低估，笔者也有一直在跟进学习中：
机器学习模型可解释性进行到底 —— SHAP值理论（一）
因果推断杂记——因果推断与线性回归、SHAP值理论的关系（十九）
同时其分析的特征重要性的角度与树模型不同，
所以两者之间会有不同，就需要根据具体情况具体分析了。

1.4 时序模型 —— Facebook Prophet

这款facebook开源的时序框架其中有一个节假日效应的模拟，5年前笔者在一些项目中就想着使用这个模块去做一些活动、广告的评估，该方式充分考虑了时序数据的特点，是一个非常好的方法。
R+python︱Facebook大规模时序预测『真』神器——Prophet（遍地代码图）

可以考察节中、节后效应。来看看paper中如何解释节日效应的（论文地址）：

也就是说，节日效应能量函数h(t)由两部分组成，Z(t)是一个示性函数的集合（indicator function），而参数K服从（0,v）正态分布。可以说，将节日看成是一个正态分布，把活动期间当做波峰，lower_window 以及upper_window 的窗口作为扩散。

当然这里笔者也稍微展开，以网易云的一篇文章为引子：
《云音乐用户增长预测之Prophet模型》：

通过将长期趋势、季节因素、节假日分离开，Prophet可以帮助我们回答以下几个其他模型难以回答的业务问题：

一些活动经常与节假日重合，例如元旦活动会带来活跃但用户在元旦本身就会更活跃，如何剥离元旦本身的影响来评估元旦活动带来的额外价值？
一到9月，受开学影响，活跃会下降，但定量来说，开学的影响到底有多大？
在解释DAU波动时，今年和去年同期都上升或下降但幅度不同，为什么?

通过模型来评估活动影响有两种方式：

1）将每重复的活动视为一个节假日，例如云音乐的年度歌单发布视为一个节假日；这种方式的优点在于比较容易处理，但缺点也显而易见，就是当活动与节假日重合的时候没有办法分离出节假日与活动影响，而且没有办法观察活动的长尾影响。
2）将实际DAU减去长期趋势，季节因素，节假日因素，最后得出活动带来的增量，即

2 实验科学的研究方法

笔者去年略微学习了因果推断，对于营销方式的评估上来说，因果推断的一些方式是非常适合，而且科学的，之前有记录为：
因果推断笔记——入门学习因果推断在智能营销、补贴的通用框架（十一）

腾讯看点分享的【2-1观测数据因果推断应用-启动重置体验分析】文章中，比较明确的将实验、观测数据进行拆分，并在各自数据状态下，适用不同的方法：

第二个版本目前解决各个分析场景的方法论框架：

一些无法进行随机实验的场景下，会需要合成控制的方式

大部分运营和产品在评估效果时，最常用的方法就是effect = 上线后效果-上线前效果。这种方法最大的问题在于其关键假设，即上线的功能或者活动是唯一影响效果的变量。但是想想就知道这个假设是有多么不合理。

升级版的评估方案，可能会找到一个城市或者大盘来和上线的城市做对比，这种想法非常类似DID，但是这个里面也隐含着一个关键假设，即可以找到长期变化趋势高度同步的城市，这点对于有较强地域性的商业来说就非常困难。

2.1 A/B 实验

A/B 实验是一个非常好的比较一些策略有效性的手段，是所有商业运营必备的实验技巧。
对于一些优惠券的价值评估举例，是满减券好，还是无门槛券好，都可以根据进行测试，当然往往也会伴随着不同的用户人群，不同的测试策略。

这里不做过多的描述，可参考：A/B Test︱一轮完美的A/B Test 需要具备哪些要素

2.2 时序 + 因果推断 - google的CausalImpact

跟着开源项目学因果推断——CausalImpact 贝叶斯结构时间序列模型（二十一）

比较适合跟

在不能做AB测试的情况下，产品上线后做效果评估一般会直接选择上线前后的指标做对比，但是不同时期的指标本身受到的影响不一样，比如节假日、季节性影响，使得选择上线前后时间段的指标比较主观。

为了准确的量化产品改版的效果，谷歌推出了开源项目causalimpact工具包，该方法基于合成控制法的原理，利用多个对照组数据来构建贝叶斯结构时间序列模型，并调整对照组和实验组之间的大小差异后构建综合时间序列基线，最终预测反事实结果。

即如果没有上线这次的产品改版，那么产品指标该是如何走向。那么这次的产品改版对指标的影响大小即是真实值（产品改版后的指标值）和预测值（预测没有改版该时期的指标值）的差距。

第一张图中y是处置组，Predicted是状态空间模型的预测值，有颜色的部分是预测值的置信区间。
第二个图表表示第一个图表的y-Predicted。
第三个图表表示处置期间y-Predicted的累计和。

2.3 DID与合成控制

直接参考：因果推断笔记——入门学习因果推断在智能营销、补贴的通用框架（十一）
主要贴一些案例上来，当然案例不是营销方式的，但是不影响方法本身，可以迁移应用在评估上。

快手的快手直播网页版对快手APP直播观看行为的影响

当treatment施加到一个群体或者地区上时，很难找到单一的对照组，这种时候采用合成控制方法构造虚拟对照组进行比较，原理是构造一个虚拟的对照组，通过treatment前的数据上学习的权重，拟合实验组在实验开始前的数据，模拟实验组用户在没有接受实验情况下的结果，构造合成控制组，实验开始后，评估实验组和合成控制组之间的差异。