八数据分析方法
Posted xxxx-ya
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了八数据分析方法相关的知识,希望对你有一定的参考价值。
ABC分析(帕累托分析)
1. 描述
1.1 概念
ABC 分类法 (Activity Based Classification) ,全称应为 ABC 分类库存控制法。又称帕累托分析法或巴雷托分析法、柏拉图分析、主次因分析法 、ABC分析法、ABC 管理法,平常也称之为「80 对 20」规则。
根据事物在技术或经济方面的主要特征,进行分类排队,分清重点和一般,从而有区别地确定管理方式。它把被分析的对象分成 A、B、C 三类,三类物品没有明确的划分数值界限。
A 类物品非常重要 | 数量占比少,价值占比大 |
B 类物品比较重要 | 没有A类物品那么重要,介于 A、C 之间 |
C 类物品一般重要 | 数量占比大但价值占比很小 |
分类的核心思想:少数项目贡献了大部分价值。以款式和销售量为例:A 款式数量占总体 10% ,却贡献了 80% 的销售额。
1.2 效果图
2. 实现思路
对已有的数据进行处理并降序排列,求出累计量和累计占比,并根据使用仪表板进行展示,并根据累计占比将对象划分为三类。
3. 示例一:自助数据集实现
通过制作自助数据集实现。
以「零售行业」业务包下的「销售明细表」和「品牌维度表」为例,对各大品牌的销售额进行帕累托分析,并得出公司最重要的品牌。
3.1 添加表间关联
进入数据准备界面,选择「零售行业」业务包,对「品牌维度表」和「销售明细表」建立 1:N 关联,关联字段为品牌编号,如下图所示:
3.2 创建自助数据集
3.2.1 添加字段
点击添加表,添加自助数据集,选择「品牌维度表」的「品牌描述」字段和「销售明细表」的「销售额」字段,如下图所示:
3.2.2 分组汇总
1)点击+,选择分组汇总,如下图所示:
2)将品牌描述拖入分组框,将销售额拖入汇总框,如下图所示:
3.2.3 排序
1)点击+,选择排序,如下图所示:
2)点击添加排序列,选择销售额字段,如下图所示:
3)选择降序排列,如下图所示:
3.2.4 新增求和列
1)点击+,选择新增列,如下图所示:
2)给新增列命名为「销售总额」,选择所有值/组内,取值规则为「所有值」,数值来自「销售额」,统计方式为「求和」,如下图所示:
3)得到销售总额字段如下图所示:
3.2.5 新增累加列
1)点击+,选择新增列,如下图所示:
2)给新增列命名为「累计总额」,选择累计值/组内,取值规则为「累计值」,数值来自「销售额」,点击确定,如下图所示:
3)得到累计总额字段如下图所示:
3.2.6 新增累计占比列
1)点击+,选择新增列,如下图所示:
2)给新增列命名为「累计占比」,输入公式累计总额/销售总额,点击确定,如下图所示:
注:公式中累计总额和销售总额不能手动输入,需要点击数值字段的字段名。
3)得到累计总额字段如下图所示:
为自助数据集命名为「帕累托图分析表」,并点击保存,进入数据准备界面,点击更新数据,如下图所示:
4. 示例二:仪表板创建计算指标实现
4.1 创建自助数据集
从「零售行业」业务包中选择销售日期、店性质、品类描述、品牌描述、销售额字段。创建自助数据集「帕累托数据」,如下图所示:
4.2 创建仪表板
4.2.1 计算总销售额
1)创建新的仪表板并将其命名为「商品销售帕累托分析」,添加计算指标使用 SUM_AGG() 函数,计算每种品牌的销售总额,如下图所示:
4.2.2 计算累加总销售额
点击添加计算指标,命名为累计销售额,输入公式 ACC_SUM(SUM_AGG(销售额),0),点击确定,如下图所示:
其中 ACC_SUM()表示根据当前维度字段对指标进行跨行累计计算。
4.2.3 计算累计销售额占比
点击添加计算指标,命名为累计销售额占比,输入公式 ACC_SUM(SUM_AGG(销售额)/TOTAL(SUM_AGG(销售额,0,"sum")),点击确定,如下图所示:
其中 TOTAL() 表示根据当前维度字段对指标进行跨行汇总计算。SUM_AGG(销售额)/TOTAL(SUM_AGG(销售额,0,"sum")表示不同商品销售额占比。
4.2.4 制作图表
1)点击创建组件按钮,命名仪表板为「帕累托图分析法」,点击确定,进入仪表板编辑界面,如下图所示:
2)将字段拖入对应横纵轴,如下图所示:
3)选择组合图,并设置销售额为柱形图,累计占比为折线图,如下图所示:
4)对累计销售额占比字段设置值轴,如下图所示:
详细设置参见:图表设置轴 。
5)对销售额字段进行降序排列,如下图所示:
6)添加计算指标,命名为 ABC 划分,输入公式 IF(累计销售额占比<0.8,1,IF(累计销售额占比>0.9,3,2)),其中 1 代表 A 类商品,2 代表 B 类商品,3 代表 C 类商品,如下图所示:
7)将 ABC 划分字段拖入图形属性>销售额下的颜色框,并设置需要的颜色,如下图所示:
8)得到帕累托图如下图所示:
同时可以设置动态帕累托图,增加过滤组件和其他需要的组件类型,如下图所示;
5. 结论分析
创建仪表板得出以下结论:
品牌名称 | 数量占比 | 销售额占比 | |
A 类商品 | ZIPPO(之宝)、PAW IN PAW、NEW BALANCE(新百伦)、HANG TEN | 40% | 80% |
B 类商品 | SINOMAX(丝梦露)、O.C.T.MAMI(十月妈咪) | 20% | 10% |
C 类商品 | WHO.A.U、RACB JJQN、LESPORTSAC、X.ZHINING | 40% | 10% |
RFM 分析法
1. 描述
1.1 概念
RFM 分析是美国数据库营销研究所提出的一种简单实用客户分析方法,发现客户数据中有三个神奇的要素:
最近一次消费(R):客户距离最近的一次采购时间的间隔。
消费频率(F):指客户在限定的期间内所购买的次数。
消费金额(M):客户的消费能力,通常以客户单次的平均消费金额作为衡量指标
这三个要素构成了数据分析最好的指标,RFM 分析也就是通过这个三个指标对客户进行观察和分类,针对不同的特征的客户进行相应的营销策略。
1.2 效果图
自助数据集效果:
仪表板效果:
2. 实现思路
3. 示例
以「样式数据」业务包下的「RFM明细数据」为例,对客户消费明细进行分析,将客户进行分类。
3.1 计算消费金额、最近消费距离、消费频次
3.1.1 选字段
1)进入数据准备界面,选择「样式数据」业务包,点击添加表,选择添加自助数据集,如下图所示:
2)进入自助数据集编辑界面,选择「RFM明细数据」并添加表下的所有字段,给自助数据集命名为「RFM分析」,如下图所示:
3.1.2 计算客户总体平均消费金额
1)点击+,选择新增列,如下图所示:
2)给新增列命名为「客户总体平均消费金额」,选择所有值/组内,取值规则为「所有值」,数值来自「MONEY」,统计方式为「求平均」,点击确定,如下图所示:
3.1.3 计算每个客户的消费频次、每个客户每次消费的平均金额、最近一次消费时间
1)点击+,选择左右合并,如下图所示:
2)将 CONPANY 、CUSTOMERNAME 、CUSTOMERTYPE、客户总体平均消费金额字段拖入分组框,将 DATE 拖入汇总框并设置为最晚时间,将 MONEY 拖入分组汇总框并设置为求平均,将 ACCOUNT 拖入汇总框并设置为记录个数,如下图所示:
3)点击+,选择新增列,如下图所示:
4)设置新增列名为最近一次消费距离时间,选择时间差,设置时间差=系统时间-DATE ,计量方式为天,点击确定,如下图所示:
3.2 计算客户总体消费指标的平均值
3.2.1 计算客户总体消费频次的平均值
1)点击+,选择新增列,如下图所示:
2)设置新增列名为客户总体消费频次的平均值,选择所有值/组内,取值规则为「所有值」,数值来自「AMOUNT」,统计方式为「求平均」,点击确定,如下图所示:
3.2.2 计算客户总体最近一次消费距离时间的平均值
1)点击+,选择新增列,如下图所示:
2)设置新增列名为总体最近一次消费距离时间的平均值,选择所有值/组内,取值规则为「所有值」,数值来自「最近一次消费距离时间」,统计方式为「求平均」,点击确定,如下图所示:
3.3 特征向量化
根据是否大于总体的平均值水平,将客户特征进行向量化。其中在 IF(xxx>总体平均值,1,0) 中,小于总体平均的设为 0,大于总体平均的设为 1 ,使得 1 都是保持正向特征,0 保持负向特征)
1)点击+,选择新增列,如下图所示:
2)给新增列命名为消费金额向量化,输入公式 IF(MONEY>客户总体平均消费金额,1,0),点击确定,如下图所示:
3)同理,增加消费频次向量化和最近消费向量化字段,如下图所示:
3.4 客户特征分析
1)已经得到客户的特征向量值,根据以下表格可将客户划分分类:
客户特征 |
客户分类 |
重要价值客户(111) | 最近消费时间近、消费频次和消费金额都很高(VIP) |
重要发展客户(101) | 最近消费时间较近、消费金额高,但频次不高,忠诚度不高,很有潜力的用户,必须重点发展。 |
重要保持客户(011) | 最近消费时间交远,消费金额和频次都很高。 |
重要挽留客户(001) | 最近消费时间较远、消费频次不高,但消费金额高的用户,可能是将要流失或者已经要流失的用户,应当基于挽留措施。 |
一般价值客户(110) | 最近消费时间近,频率高但消费金额低,需要提高其客单价。 |
一般发展客户(100) | 最近消费时间较近、消费金额,频次都不高。 |
一般保持客户(010) | 最近消费时间较远、消费频次高,但金额不高。 |
一般挽留客户(000) | 都不高。 |
2)点击添加新增列,使用 CONCATENATE() 函数将 RFM 向量化值拼接起来,如下图所示:
3)添加分组汇总,将下列字段拖入分组框,如下图所示:
4)设置 RFM 字段为自定义分组,分组依据为 3.4 章节中的客户类型分析表,点击确定,如下图所示:
5)保存并更新自助数据集,得到如下结果:
至此,该自助数据集也可以通过仪表板进行客户分类相关数据的可视化展示。
以上是关于八数据分析方法的主要内容,如果未能解决你的问题,请参考以下文章
你好Hystrix八:Hystrix执行流程分析-toObservable