零售业中的数据挖掘问题 Ⅰ

Posted 2021-04-27 TalkingData数据学堂

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了零售业中的数据挖掘问题 Ⅰ相关的知识，希望对你有一定的参考价值。

引言

本文是 TalkingData 首席数据科学家张夏天翻译自 Highly Scalable Blog 的一篇文章，介绍了零售业中的数据挖掘问题。

原文较长，将会分为多篇推送，本文是第一篇。原文作者为 Ilya Katsov，原文链接见阅读原文。

多年来，这篇文章逐步演变成一本书，感兴趣的读者可以回复关键词“零售”，获取本书的英文 PDF 版下载链接。

零售是数据科学和数据挖掘重要的商业应用领域之一。零售领域有着丰富的数据和大量的优化问题，如优化价格、折扣、推荐、以及库存水平等可以用数据分析优化的问题。

全渠道零售，即在所有线上和线下渠道整合营销、客户关系管理，以及库存管理的崛起产生了大量的关联数据，大大增强了数据驱动型决策的重要性和能力。

尽管已经有许多关于数据挖掘在营销和客户关系管理方面的书，如 [BE11, AS14, PR13 etc.]，但绝大多数书的结构更像是数据科学家手册，专注在算法和方法论，并且假设人的决策是处于将分析结果到业务执行上的中心位置。

在这篇文章中我们试图采用更加严谨的方法和系统化的视角来探讨基于数据分析的经济学模型和目标函数如何使得决策更加自动化。在这篇文章里，我们将描述一个假想的收入管理平台，这一平台基于零售商的数据并控制零售策略的很多方面，如价格、营销和仓储。

我们专注在将经济学框架和数据挖掘方法的组合有以下两个主要的原因：

我们可以从经济学教科书上找到上百个与零售有关的经济学模型，因为关于市场、折扣、竞争等问题在上个世纪得到了深入的研究。然而，许多模型都是高度参数化的（即严格的由带有有限参数的公式所定义）并且不能足够灵活而精确地对现实世界的问题建模。

但数据挖掘提供了很多非参数建模技术，可以帮助创建灵活而实用的模型。在最近十年里，也有许多成功的平衡抽象模型和机器学习技术的文章和案例研究已经发表。

快速的数据循环使得在现代零售业中可以使用相对简单的模型做出更加准确的预测，因为小规模增量式的预测一般而言要比大决策更加容易。

例如，因为对于一个新的颠覆性产品在消费者心中的感知价值是未知的，要计算它的最优价格是很困难的。但是根据需求和库存水平实时调整促销价格则是相对容易的。有一些成功的商业解决方案对价格优化就几乎丢弃了经济学模型，简单的根据销售闭环的反馈情况来决定价格的上升和下降 [JL11]。

以上两点意味着在零售业自动化决策和动态优化具有很高的潜力，因此我们专注于研究这个领域。本文很大篇幅用于综述零售业者和研究人员发表的成果，这些成果都是他们在综合应用抽象经济学模型和数据挖掘方法构建实际的决策和优化系统中产生的。

特别的，本文主要受到 3 个案例研究的启发，分别出自 Albert Heijn [KOK07], 新西兰最大的连锁超市，Zara [CA12], 一家国际服装零售商，以及 RueLaLa [JH14], 一家创新在线时尚零售商。我们同样综合了来自 Amazon、Netflix、LinkedIn 和许多独立研究者和商业项目的结果。同时，我们避免使用那些缺乏实践支持的学术结果。

我们的研究主要着眼于与收入管理相关的优化问题，包括营销和定价等问题。更加特殊的数据挖掘应用，如供应链优化和欺诈检测，数据挖掘过程实现的细节（如模型质量的验证）则不在这我们研究的范畴内。

本文剩余部分组织如下：

我们首先引入一个简单的框架将零售商的行为，利润和数据联系在一起。此框架将作为更统一的方式来描述分析问题。
本文的主体部分探讨了一系列与零售业相关的优化问题。我们将在不同章节逐个介绍这些问题。每个章节会简要描述问题，并提供一组业务案例和应用，以及详细介绍如何将问题分解成经济学模型和数据挖掘任务，使得可以通过数值优化方法来解决业务问题。
然后，我们会有一个章节专门讨论这些方法在实际应用中的可期的经济收益。
最后，总结部分会对这些问题之间的依赖关系进行讨论，从而阐明一般的原则和关键点。

优化框架

本文介绍了 6 个主要与营销和定价相关的优化问题，这些问题都能够应用数据挖掘技术来解决。尽管这些问题非常不同，但我们尝试建立了一般性的框架来帮助设计求解所需的优化和数据挖掘任务。

该框架的基本思想是用一个经济指标，例如毛利率作为优化目标，并将这一目标作为零售商行为（如营销活动或者分类调整）的函数。

同时计量经济学目标也是数据的一个函数，即计量经济模型应该被零售商的特性参数化，从而在其输出中产生一个数值，如毛利率。

例如，某零售商在计划一个邮件营销活动。可行的行动空间可被定义为一组对于每个客户发送/不发送决策集合，而活动的毛利率则决定于营销动作（有些人会接受激励而另一些人不会）以及给定客户的期望收入和邮件成本。这一方法可以更形式化的由如下公式表达：

零售业中的数据挖掘问题 Ⅰ

此公式里 G 是可用于分析的数据，是零售业者行为和决策空间，是计量经济模型函数，其参数是 d 和 A，而 A₀是最优策略。这一框架由文献 [JK98] 整理提出。

模型 G 的设计十分依赖于问题本身。在大部分情况下，对毛利率建模和优化都是合理的。但是，有些情况下其他的目标也是有可能的，就如下一章探讨的响应建模。同时需要注意的是优化问题（1）也跟时间有关系，因为环境会随着如新产品的上架、竞争对手的行动等因素变化，零售业者自己的行为也会产生影响。

数据挖掘在这一优化问题中的角色是非常重要的，因为计量模型 G 通常都比较复杂且必须基于数据通过回归等数据挖掘技术学习确定。

在某些情况下因为复杂性太高（如用户的行为很难精确预测）或者因为无法将现有数据做外推（如对于完全新的服务），模型是无法完全确定的。这时，可以用 A/B 测试和问卷调查来获得额外的数据来改进模型的精度。

问题 1: 响应建模

问题描述

在广告或者特价优惠活动中，需要决定将一些资源投放给一些客户。而这些资源都是有成本的，如邮寄印制商品的目录的资金成本，或者一些负面效应（如使得用户取消邮通知订阅）。

同时，这些资源将会影响用户的决策，如促使他们更多地消费或者购买更高价值的产品。其目标是找到一组最靠谱的候选客户，对他们投入资源后能够使得业绩最大化。

投入的资源可以是同质的（如所有参加的客户都得到同样的激励）也可以是个性化的。在后一种情况下，零售业者将对每个不同的客户提供不同的激励如不同产品的优惠券来最大化总体的收益目标。

应用

响应建模被广泛的应用在营销和客户关系管理上：

确定特定的折扣、优惠券和特价，需要识别出客户对这些激励的反应。
有这对性的邮件促销、活动和赠品（如 4S 店提供的免费太阳眼镜）通常需要识别出最优价值的客户来降低营销费用。
客户挽留计划需要识别出那些可能会离开但可以通过激励来改变主意的客户。例如，电商可以向那些放弃购物车或者离开搜索会话的客户发送特价优惠。
在线目录和搜索结果可以根据客户对某些商品的的喜好来重新调整。
响应建模帮助优化了电邮促销来避免不必要的垃圾邮件，这些垃圾邮件可能会让客户取消邮件订阅。

求解

基于以上的讨论，我们现在可以认识到这个问题就是资源分配的优化问题，而优化问题由一个目标函数驱动。一个最基本的方法是根据每个客户的响应概率和期望净价值来对促销活动的整体利润建模。

零售业中的数据挖掘问题 Ⅰ

这里 Pr(R│u;I) 是给定客户 u 对激励 I 的响应概率，g(u|R)) 是这个客户响应的激励的净价值，而 c 则是激励的成本。公式中第一项是响应从响应用户获得的净收益，而第二项则是对应在没有响应的客户上的期望损失。目标是通过找到一组最有可能响应活动并能贡献高利润的客户子集来最大化 G。因为公式 (1.1) 可以约简如下：

零售业中的数据挖掘问题 Ⅰ

这里 E{g|u;I} 表示对给定客户在假定他会接受激励的情况下的毛利率的数学期望，而客户的选择标准则要符合以下条件：

零售业中的数据挖掘问题 Ⅰ

同时，最优的客户子集 U 可以定义为最大化毛利率的子集：

零售业中的数据挖掘问题 Ⅰ

我们也可以以随机分配激励为基准的净值最大化。为此，我们假设参与该次营销活动的客户数固定为 |U|。首先，我们将公式 (1.2) 展开，显示的包括对于随机选取的 |U| 个客户的营销活动的期望毛利率。

零售业中的数据挖掘问题 Ⅰ

此处 E{g|I} 是所有客户上的平均净价值。这一平均净价值是常数，因此在 |U| 确定的情况下在目标函数中可以被略去。因此，公式（1.2）在固定的情况下同样可以得到（1.3）：

零售业中的数据挖掘问题 Ⅰ

然而，文献 [VL02] 提出这一模型存在一定的缺陷，因为该模型偏向于易于接受激励的客户，而没有考虑那些有没有激烈都会贡献同样利润的的客户。为解决这一缺陷，我们需要根据以下四种情况来计算客户集合 U 的毛利率：

G1 – select U according to the equation (1.2) and send incentives to everyone in
G2 – select U randomly and send incentives to everyone in
G3 – select U according to the equation (1.2) but do not send incentives at all
G4 – select U randomly but do not send incentives at all
G1 - 根据公式（1.2）选择 U 并向中所有客户发送激励
G2 - 随机选择 U 并向 U 中所有客户发送激励
G3 - 根据公式（1.2）选择 U 但是不发送任何激励
G4 - 随机选择 U 但是不发送任何激励

公式（1.2）是最大化之差即相较于随机投放的提升度。另一种方法是优化，这一目标函数不仅仅度量相较于随机投放的提升度同时还考虑去除掉在同样的客户集合上不做任何激励的提升度。在此情况下，公式（1.2）变为如下形式：

零售业中的数据挖掘问题 Ⅰ

此处最后一项对应的是未被激励的客户的期望净价值。这一方法被称为差分响应分析或者提升度建模由文献 [BE09] 提出。

值得注意的是，公式（1.2）和（1.4）都不是通过最大化营销费用来优化的。考虑如下情况，每个响应的用户可以贡献 100 美元的净利润，而激励费用为 1 美元。如果一个客户组有 100 万客户，其中有 0.5% 的潜在响应者，则花费最大的营销活动是对每个客户都做触达则最终将损失 50 万美元（总的响应者贡献的 50 万美元净价值减去活动费用 100 万美元）。

公式（1.4）对于各种类型的价格折扣特别重要(优惠券、临时价格折扣、特价)。考虑如下问题：“一个零售商应该向每天都买苹果的人提供苹果优惠券吗？” 根据公式（1.2），回答是肯定的。因为这个人很有可能会使用优惠券。

然而，更可能的是这个客户用更低的价格购买了同样数量的苹果，根本上这会降低零售商的利润。公式（1.4）考虑了默认的客户行为从而消除了这一问题。我们在下一节将继续讨论价格区分问题因为这一是个复杂的问题远超了公式（1.4）范畴。

公式（1.2）和（1.4）中净收入的数学期望能够基于过去客户对激励是否接受的历史数据用分类或者回归模型来确定。这一问题可能是非常有挑战性的，特别是当需要评估的激励与过往出现过的都存在某种程度上的差异。

在这种情况下，全规模的活动上线之前需要在一个客户测试组上进行测试。另外，对于零售业者而言毛利率并非唯一的关键指标。在公式（1.2）和（1.4）中使用的毛利率度量关心的是第一次付款后即时的汇报，从客户关系管理的角度看这是非常简单的视角。

零售业者还会关心其他不同的度量，度量上的多元性是如此巨大以至于有一门专门研究这个问题的经济学分支 - 倾向性建模[SG09, LE13] - 这一学科发展了不同的模型来预测用户未来的行为。最重要的倾向性模型包括：

生命价值预测。生命价值模型是估计一个客户在其生命周期内可以贡献的收入或者利润总额。这一指标对于那些目标为获取新客的营销活动而言是很重要的。
钱包份额预测。钱包份额模型用来估计用户对于某些类型商品，如杂货或者服饰，在某一零售商及其在各竞争对手那花钱的比例。这一度量能够揭示哪些客户具有贡献高收入的潜力，因为这一模型能够用在忠诚计划和提升使用的营销活动中。
类型扩展倾向。该模型估计首次购买某一类型的商品后，从休闲产品转换到奢侈品的可能性。这一模型能够帮助设计目的是获得使用扩展的活动。
流失倾向。这一模型估计客户从给定零售商流失并转换到竞争对手的可能性。如果客户具有较高的流失倾向则可以定向进行挽留活动。例如，一个零售商可以识别出那些放弃了在线购物车或者退出了搜索会话但是提供一定折扣或者赠品后会改变主意的客户。
购物习惯改变倾向。每个客户的购物习惯最终确定了其对一个零售商的价值，即客户的购买频率、购买什么产品、购买什么类型的产品等等。这些习惯通常是稳定的，一旦零售商改变一个客户的分层，这个分层将会持续。

因此，零售业者通常对找到那些对改变习惯比较开放的客户感兴趣，如那些从一个城市迁移到另一个城市的人群，从学校毕业的学生，刚刚结婚的人群等等。一个典型的例子是预测客户是否在怀孕早期 [DG12] 因为新生命的诞生会显著的改变客户的购物行为。

以上模型都能够嵌入类似公式（1.4）的公式来代替毛利率目标。我们在后面的小节中将针对讨价格差异化的情况下对折扣的响应倾向建模的情况仔细探讨倾向性建模。关于倾向性建模的更多细节可以参考 [FX06] 和 [SG09] 两本书。

这一框架也能够扩展到在多个可能的激励方案中选择最优的方案。例如，一个零售商可以估计对于两个激烈方案 A 和 B（例如巧克力冰激淋和香草冰激淋）的期望表现然后对于给定的用户可以根据以下标准[WE07]来选择最优的选项：

最后，值得注意的是响应建模是与客户分群紧密耦合的：

响应建模能够用来检验通过聚类行程的客户分群的可行性。一个分群应该对特定的营销计划有持续的响应。
倾向性模型是基于客户数据训练得到的回归和分类模型。客户分群可以参考对于主要回归量的分析结果。另一方面，从聚类结果中也可以发现合理的倾向性模型。

以上是关于零售业中的数据挖掘问题 Ⅰ的主要内容，如果未能解决你的问题，请参考以下文章