常见的数据分析项目类型

Posted 2021-03-08 jing-yan

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了常见的数据分析项目类型相关的知识，希望对你有一定的参考价值。

1 目标客户的特征分析

在目标客户的典型特征分析中，业务场景可以是试运营之前的虚拟特征探索（来源历史数据模拟推测），也可以是试运营之后来自真实运营数据基础上的分析、挖掘和提炼，两者目标一致，只是思路不同、数据来源不同而已。另外，分析技术也有一定的差异。

2 目标客户的预测（响应、分类）模型

这里的预测模型包括流失预警模型、付费预测模型、续费预测模型、运营活动响应模型等，其中涉及的主要数据挖掘技术包括逻辑回归、决策树、神经网络、支持向量机等。没有哪个算法在任何场景下都总能最优胜任响应模型的搭建，所以数据分析师都会尝试多种不同的算法，然后根据随后的验证效果一级具体业务项目的资源与价值进行权衡，并作出最终的选择。

根据建模数据中实际响应比例大小进行分类，响应模型还可细分为普通响应模型和稀有事件响应模型。一般来讲，如果响应比例低于1%，则应当作稀有事件响应模型来处理，其中的核心就是抽样，人为放大分析数据样本里响应事件的比例，增加响应事件的浓度，从而在建模中更好地捕捉、拟合自变量与因变量的关系。

预测模型除了可以有效预测个体响应的概率外，模型本身显示出的重要输入变量与目标变量的关系也有重要业务价值，比如说可以转化为伴随发生响应的关联因素的提炼。虽然这种关系并不一定是因果关系，需要后期深入分析，但是这种关系也常常会对数据化运营具有重要参考价值。

3 运营群体的活跃度定义

活跃度的定义没有统一的描述，但是有两个最常见的基本点：

活跃度的组成指标应该是该业务场景中最核心的行为因素
衡量活跃度的定义合适与否的重要判断依据是其能否有效回答业务需求的终极目标。

举个例子，现在需要定义一个活跃度，使得满足一定活跃度分值的用户能比较容易转化成付费用户。因此该分析的终极目标就是促成付费用户的转化，则一个重要的评估依据就是按照该活跃度定义出来的活跃用户群体里，可以覆盖多少实际的付费用户。

活跃度的定义所涉及的统计技术主要有两个，一个是主成分分析，另一个是数据的标准化。

4 用户路径分析

用户路径分析是互联网行业特有的分析专题，主要是分析用户在网页上流转的规律和特点，发现频繁访问的路径模式。这些路径的发现可以有很多业务用途，包括提炼特定用户群体的主流路径、网页设计的优化和改版、用户可能浏览的下一个页面的预测、特定群体的浏览特征等。路径分析所用的数据主要是web服务器中的日志数据，这些数据规模通常都是海量级别的。路径分析常用的技术有两类，一类是有算法支持的，另一类是严格按照步骤顺序遍历主要路径的。

在互联网数据化运营的实践中，如果能把单纯的路径分析技术、算法和其他分析挖掘技术相融合，那么将会产生更大的应用价值。这种融合的思路包括通过聚类技术划分出不同的群体，然后分析不同群体的路径特征，比如，对比付费和非付费人去的路径特征，优化页面布局等、根据下单付费路径中频繁出现的异常模式可能来对付费页面设计进行优化。

5 交叉销售模型

一旦客户购买了商品，企业就会想法设法保留客户，一般会有两个运营方向，一是延缓客户流失，通常采用客户流失预警模型，提前锁定最可能流失的客户，然后采取各种客户关怀措施挽留客户；二是让客户消费更多的商品和服务，挖掘客户利润，迎合客户需求，在这一类场景中，涉及的主要模型就是交叉销售模型。

交叉销售模型通过对用户历史消费数据的分析挖掘，找出明显有关联性质的商品组合（可以同时购买，也可以有先后次序），然后用不同的建模方法，构建消费者购买这些关联商品组合的可能性，再用其中优秀的模型预测新客户购买特定商品组合的可能性。

综合数据挖掘的中外企业实践来看，最少有4种完全不同的思路。一是按照关联技术，也即通常所说的购物篮分析，发现那些有较大可能被一起采购的商品，将它们进行有针对的促销和捆绑，这就是交叉销售；二是借鉴响应模型的思路，为某几种重要商品分别建立预测模型，对潜在消费者通过这些预测模型进行过滤，然后针对最有可能前5%的消费者进行精准的营销推广；三是仍然借鉴响应模型的思路，让重要的商品两两组合，找出最有可能消费的潜在客户；四是通过决策树清晰的树状规则，发现基于具体的数据资源的具体规则。

相应的建模技术包括关联分析、序列分析，即在关联分析的基础上，增加了先后顺序的考虑，以及预测模型技术，比如逻辑回归、决策树。

6 信息质量模型

电商行业连接买卖双方最直接、最关键的纽带就是海量的商品目录、商品展示，因此需要提升商品信息的质量和结构，达到要素齐全、布局合理、界面友好。

互联网行业的信息质量模型所应用的场合主要包括商品offer质量优化、网上店铺质量优化、网上论坛的发帖质量优化、违规信息的过滤优化。

有时搭建信息质量模型的目标变量是该信息是否在特定的时间段产生了交易，此时的目标变量就是二元的，是与否。但在其他情况下，没有明确的来自实际数据的目标变量，则专家打分、模型拟合是一个比较合适的变通策略。比如对商品offer构成要素的权重进行打分，包括标题长度、图片数量、属性选填的比例、是否有分层价格区间、是否填写供货总量信息、是否有运营说明、是否支持在线第三方支付。首先抽取一定的样本，请行业专家打分，把这些分数作为目标变量，利用数据挖掘各种模型拟合这些要素与总分数之间的关系。

7 服务保障模型

比如让卖家购买合适的增值产品、让卖家续费合适的增值产品、卖家山谷额信息的违禁过滤、卖家社区发帖的冷热判断等。

8 用户（卖家、买家）分层模型

分层模型是介于粗放运营与基于个体概率预测模型之间的一种折中和过滤模型，既兼顾了精细化的需要，又不需要投入到预测模型的搭建和维护中，因而在数据化运营的初期和战略层面上的分析有较大应用价值。

其常用的场景为，客户服务团队需要根据分层模型来针对不同群体提供不同说辞和相应服务套餐；企业管理层需要基于在线交易卖家数量来形成以其为核心的卖家分层进化视图；运营团队需要客户分层模型来指导相应的运营方案的制定和执行。

分层模型常用的技术包括统计分析技术（相关性分析、主成分分析），又可以含有预测（响应、分类）模型的技术，比如通过预测模型发现最重要的输入变量和排序情况，根据这些重要变量对分层进行大致划分，按照业务情况确定分层的指标和门槛，建立输入变量和分层门槛的预测关系，看该模型的预测结果是否能包含大多数的实际情况，并通过实际数据进行验证，看其在一定时间长度内是否具有稳定性。

9 卖家（买家）交易模型

涉及主要的分析类型包括：自动匹配（预测）买家感兴趣的商品（即商品推荐模型）、交易漏斗模型（找出交易环节的流失漏斗，帮助提升交易效率）、买家细分（帮助提高个性化的商品和服务）、优化交易路径设计（提升买家消费体验）。

10 信用风险模型

这里的信用风险包括欺诈预警、纠纷预警、高危用户判断等。相比于常规的数据分析挖掘，信用风险分析模型的时效更短、需要更新的频率更高、模型的及时性和准确性都有很大挑战，因为行骗手段的变化很大程度上是随机的。

11 商品推荐模型

11.1商品推荐介绍

根据不同的商业需求，电子商务除了主要的商品推荐，还有query推荐、商品类目推荐、商品标签推荐、店铺推荐等。常用的商品推荐模型主要分为规则模型、协同过滤和基于内容的推荐模型。对于规则模型，常用的算法有Apriori算法；而协同过滤中涉及K最近邻居算法、因子模型等。

11.2 关联规则（Apriori算法）

给定关联规则X→Y，即根据X推导出Y。形式化定义为：

支持度（X→Y）=同时包含X和Y的记录数/数据集记录总数

置信度（X→Y）=同时包含X和Y的记录数/数据集中包含X的记录数

算法过程：

计算频繁1项集。统计每种商品出现的次数，选取大于等于最小支持度的商品，得到候选项集。
计算频繁2项集。将频繁1项集和它本身进行连接运算（即商品的各种二元组合），根据二元组合分别计算记录数，根据最小支持度得到频繁2项集。
根据频繁2项集，同理计算频繁3项集。并进行剪枝，即频繁3项集的非空子集必是频繁的。
一直计算到剪枝后，频繁n项集为空。
根据频繁项集，计算关联规则。即按照已有的频繁项集中不同项目的组合，得到任意的X→Y，计算其置信度。去除置信度低的。

11.3 协同过滤算法

启发式协同过滤算法主要包含3个步骤：

收集用户偏好信息
寻找相似的商品或用户
产生推荐

协同过滤的输入数据集主要是用户评论数据集或者行为数据集。这些数据集又分为显性数据和隐性数据。其中，显性数据主要是用户打分数据，譬如用户对商品的打分、但是显性数据存在一定问题，譬如用户很少参与评论、可能存在欺诈嫌疑，造成打分数据稀疏或者不真实。而隐性数据指用户的点击行为、购买行为和搜索行为，这些数据隐性地揭示了用户对商品的偏好。但隐性数据也存在一定问题，譬如如何识别用户是为自己购买还是送礼等。

（1）基于用户的协同过滤（User-based）

基于用户的协同过滤算法首先根据用户历史行为信息，寻找相似的其他用户，根据这些相似用户对其他项的评价信息预测当前用户可能喜欢的项。

在协同过滤中，一个重要的环节就是计算用户的相似度，一般采用皮尔逊相关系数和余弦相似度，用两个用户共同对某些商品的评价信息数据。

另一个重要的环节就是计算用户对未评分商品的预测分值。用s(u,u‘)表示用户u和用户u‘的相似度，N表示邻居集，U表示用户集，r_u,i表示用户u对项i的评分，r^‾_u表示用户u的平均评分。预测用户u对项i的评分p_u,i，计算公式如下：

p_u,i=r^‾_u+(∑_ns(u,u‘)*(r_u^‘,i - r^‾_u^‘))/(∑_n| s(u,u‘) | )

(2)基于项目的协同过滤（Item-based）

Item-based协同过滤算法计算item之间的相似度，从而预测用户评分。计算项目相似度也可以用皮尔逊或者余弦相似度，在此给出一种基于条件概率计算的公式：用s(i,,j)表示项i和项j的相似度，freq(iΛj)表示i和j共同出现的概率，α表示阻力因子，主要用于平衡控制流行和热门的item

s(i,,j)=（freq(iΛj)）/（freq(i）*freq(j）^α）

接下来预测评分，p_u,i表示用户u对项i的预测评分，S表示和项i相似的项集，r_u,j表示用户u对项j的评分：

p_u,i=（∑_s s(i,,j)* r_u,j）/(∑_s | s(i,,j) | )

来源:https://www.cnblogs.com/data-science-chinchilla/p/8976920.html

以上是关于常见的数据分析项目类型的主要内容，如果未能解决你的问题，请参考以下文章