数据分析:大数据时代的必备技能之EXCEL
Posted 绝世这天下
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析:大数据时代的必备技能之EXCEL相关的知识,希望对你有一定的参考价值。
数据分析价值与数据分析思维
一、数据分析概述
1.什么是数据
声音、图像、文字等
- 数据:是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
2.理解数据
- 数据的呈现形式:表格
- 数据的类型:
- 数据分类的作用:决定数据的整理、显示方法、分析方法、处理方法等。
- 按度量尺度分:
- 定性/离散数据 (分类数据,顺序数据)
- 定量/连续数据(连续数据可进行运算的,不可数的)
3.什么是数据分析
- 最专业的数据分析:
- 有针对性的收集、加工、整理数据,并采用统计和挖掘技术分析和解释 数据的科学与艺术!
- 最简洁的数据分析:
- 简单的很,就是分析数据 。
- 描述数据特征,预测数据趋势,展示分析结果,
- 从一大堆数据中提取到你想要的信息,就是数据分析。
- 数据分析和数据挖掘的区别
- 数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程,是数学与计算机学科结合的产物
- 数据挖掘是指从大量数据中通过算法搜索其中隐藏信息的过程
- 数据分析与挖掘的终极目的就是对大量数据进行分析,提炼隐藏在数据背后的信息,使数据产生新的价值
3. 数据分析的步骤
-
(1提出分析目标
- 现状统计+问题定位+预测
-
(2收集数据
-
(3数据处理
-
(4数据分析和建模
- 简单分析方法:数据分析思维方式+业务指标构建+描述性统计分析+探索性数据分析
- 深层业务逻辑建模分析:数据挖掘,使用算法搭建模型,分析完成复杂的数据分析工作,重点挖掘数据价值,寻找模式与规律。
-
(5数据可视化
- POWERBI,TABLEAU、PYTHON (图展示)
-
(6提出建议并推动落地
- 根据结果,提出改进建议,落地实行。
二、数据分析价值
1.定义和组成
2. 商业价值案例–豆浆
- 收集数据:豆浆的品类、单品销售数量、单品价格、销售日期(周几)
- 分析图
- 结论
周一的时候,豆浆销量最好,销量比其他日期要高。
晴天的销量最高。
原味豆浆,卖的最快,供不应求。黑豆豆浆每次都卖不完,要剩下一半。
基于上面的分析结果,你给姑娘提了几个建议:
第一,在周末的时候,重点观察周一的天气,如果是晴天,那么备货量提高30%。
第二,减少50%黑豆豆浆的进货量,同时提高原味豆浆的零售价,涨价5毛钱。
姑娘尝试着照做,发现真的在支出不变的情况下,通过提高收入,提高了利润所得,她十分惊喜,同意做你的女朋友。
时间飞逝,转眼间又过了两年,你俩感情稳定,准备结婚……
在这两年期间,你契而不舍的持续收集豆浆铺的销售数据,也会根据需求,不断调整采样字段,并在每个月终进行销售月报分析。
然而近期你发现,销售额逐渐产生了瓶颈。
追其原因,是由于周边街道也有早餐店,在卖同质化产品。豆浆价格透明,涨价空间极低。所以只能通过降低成本的方式来提升利润了。
于是,你开始对着这两年的数据进行整理,思考。
经过对行业指标的研究分析,你发现:
第一,每周妹子都从零售商处进货。她的进货量偏少,进货频次过高,同时由于原料市场价不稳定,她的原材料成本很高。
第二,如果从原料生产商手中进货,只要提高进货量,就可以大幅降低原料单价,同时因为进货频率降低,可以对冲价格波动带来的风险。
而豆浆铺的销售额日趋稳定;对原料的需求量也相对固定;原料贮存期长。所以,你们完全可以通过屯原料的方式,来降低成本。
那么现在需要做的是,研究原料行情,同比环比进行分析,选择在同期行情最低的时候,囤积相应的食品原材料。
同比:和上一年作比较,今年8月份和去年8月份作比较
环比:今年8月份和今年7月份做比较
通过对行业进一步研究后发现,每年三月份,豆子的价格最高。而八、九月份豆子的价格最低。
所以你建议你的未婚妻:在八月份的时候,开始大量囤积豆子,供全年使用。
未婚妻听了你的话,照做。
果然,你们更换进货渠道后,用几乎是原先三分之一的价格,就获得了同品质的食品原料,利润率轻松 提高了150%。
时间又过了十来年,你们通过每年屯原料,降低成本,提高利润率,开了多家分店。隔壁老王看了很眼红,也学着你们开了相似的店,做着同样的事。
随着对原料市场的深入了解,以及对供需关系愈发清晰,你太太开始做豆子等原材料的期货交易。而你,依旧坚持不懈的收集数据,进行数据分析。
但是近期,你通过对多年数据的比对分析,建模检测,忽然发现了一个新的风险点。
什么风险点呢?
你发现,大约每四年为一个周期,由于气候及雨水的原因,导致豆子的行情倒挂。每四年一次,三月份原本贵的豆子便宜了,而八月份原本便宜的豆子变贵了。今年正是产生倒挂风险的周期年。
你扭头看了看太太,她端坐在沙发里拿着手机,正在准备囤积大量原材料呢。
在她下订单前,你紧急叫停了这一切。
还好一切都来得及……
果然今年八月份的豆子价格贵的惊人,隔壁老王由于丝毫没有察觉到周期性风险 ,错误预估行情走势,损失严重。只好通过零售单品涨价的手段维持经营,生意惨淡。
而你们通过对数据的准确预测,避开了昂贵的价格波动期,成功规避了风险。
之后在价格相对较低的12月,补进原料。生意并没有受到大的影响。
三、数据分析思维
1. 核心思维方式
案例分析:销售空调,全国有很多线下销售商店,我们发现某月的销量下降,和去年同比下降了20%。现在需要分析原因
-
时间层面:分析突然暴跌,还是逐渐下降。
-
地区层面:不同地区的销售数据:是地区影响吗?
-
市场环境:做市场调查
-
客户层面:做顾客访谈
(1)、结构化分析思维
根据目标,梳理条理,形成有逻辑,有步骤的分析思路
结构化思考来源于麦肯锡,金字塔思维,每一个论点都围绕上一个问题目标,层层拆解相互独立,最终会形成金字塔结构。
站在宏观的角度去思考问题,而不是只在几个可能的论点上找原因。
结构化是分析的思维,但它还不够数据,而且难免有发散的缺点。
(2)、公式化分析思维
结构化可以帮我们理清数据分析的各个论点,但每个论点不一定靠谱有效,比如说上面案例中的外部原因中的竞争对手销量,这些数据我们是无法得到的。
需要一定的数据量化,会用到很多计算公式,比如利润=销售额收益-成本,利润就可以用销售额收益和成本来量化。
用结构法+公式法可以对业务进行辅助和量化
结构化思维+公式化思维可以解决大部分的数据分析问题,但是不能保证最终的数据分析结论是100%正确的,这只能说是从宏观角度分析的客观结果,不一定适用于特定的业务场景。细看分析的各个论点,有时候会由于对业务的不理解导致漏掉某些原因,这时候就需要第三种思维业务化补全遗漏的点。 有时候为了分析去分析,没有深入理解业务,有时候结果也不理想,好的数据分析思维,本身也是具备业务思维。
(3)、业务化分析思维
业务化思维避免我们为了分析而分析,用结构化思考+公式化拆解,获得的最终分析论点,很多时候,是现象,数据是某个结果的体现,但不代表原因
案例1:卖玉米如何提高收益?价格提高多少才能获取最大收益?
收益 = 单价*销售量,那么我们的策略是提高单位溢价或者提高销量。
1、提高单位溢价的方法:
品牌打造获得长期溢价,但缺陷是需要大量前期营销投入;
加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉();
重定位商品,如礼品化等;
价格歧视,根据价格敏感度对不同用户采用不同定价,提供优惠券等
2、拓宽渠道,挖掘市场
案例2:如何进行用户流失的分析,新用户流失和老用户流失有什么不同?
1)用户流失分析:
用户流失问题,所以这里细分用户时可以细分用户处在生命周期的哪个阶段。(用户生命周期:引入,成长,成熟,休眠,流失。)
指标拆解:用户流失数量 = 该群体用户数量*流失率。拆解,看是因为到了这个阶段的用户数量多了(比如说大部分用户到了衰退期),还是这个用户群体的流失率比较高
内外部分析:
a. 内部:新手上手难度大、收费不合理、产品服务出现重大问题、活动质量低、缺少留存手段、用户参与度低等
b. 外部:市场、竞争对手、社会环境、节假日等
2)新用户流失和老用户流失有什么不同:
新用户流失:原因可能有非目标用户(刚性流失)、产品不满足需求(自然流失)、产品难以上手(受挫流失)和竞争产品影响(市场流失)。
新用户要考虑如何在较少的数据支撑下做流失用户识别,提前防止用户流失,并如何对有效的新用户进行挽回。
老用户流失:原因可能有到达用户生命周期衰退期(自然流失)、社交蒸发难以满足前期用户需求(受挫流失)和竞争产品影响(市场流失)。
老用户有较多的数据,更容易进行流失用户识别,做好防止用户流失更重要。当用户流失后,要考虑用户生命周期剩余价值,是否需要进行挽回。
数据预处理
一、excel介绍与安装
Microsoft Excel是Microsoft为使用Windows和[Apple Macintosh](https://baike.baidu.com/item/Apple Macintosh)操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。在1993年,作为Microsoft Office的组件发布了5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。
二、数据采集
- 数据分类
- 一手数据:也称原始数据。指通过人员访谈、询问、问卷、测定等方式直截获得的,时效性和相关性更好。
- 二手数据:利用文献,统计年报以及数据库等前人统计好的数据资料。优点是获取成本低,且现成可用。一般可以长时间保存,生成数据趋势图方便。
三、数据清洗
数据清洗就是将格式错误的数据进行处理纠正,将错误的数据纠正或删除,将缺失的数据补充完整,将重复多余的数据删除。
1. 数据一致性处理
如:单位同意
2. 缺失数据的处理
- 用样本均值(或众数、中位数)代替缺失值
- 将有缺失值的记录删除
- 保留该记录,在要用到该值做分析时,将其临时删除(最常用方法)
3. 删除重复记录
- excel–>数据–>删除重复项按钮
四、数据加工
- 数据转置
- 字段分列
- 字段匹配–VLOOKUP
- 数据抽取
- LEFT()
- RIGHT()
- MID()
- YEAR()
- MONTH()
- DAY()
- WEEKDAY()
- 数据计算
- INT()–>向下取整
- ROUND()–>向上取整
数据可视化
一、excel可视化
- 统计图:统计图是利用几何图形或具体形象表现统计资料的一种形式。
它的特点是形象直观、富于表现、便于理解,因而绘制统计图也是统计资料整理的重要内容之一。
统计图可以表明总体的规模、水平、结构、对比关系、依存关系、发展趋势和分布状况等,更有利于统计分析与研究。
下面主要介绍如何利用Excel软件来绘制统计图。Excel常用的统计图有柱形图、条形图、饼图、折线图、散点图等。
1. 柱形图
- 单系列
2.多系列柱形图
- 多系列
3.条形图
- 条形图就是将柱形图顺时针旋转90°后所得的效果图,其作用与柱形图一样。
4.甘特图
- 甘特图通过线条或矩形条来展现项目的进度。
在甘特图中,横轴表示时间,纵轴表示项目,线条或矩形条的起点、终点和长度分别表示项目的开始时间、结束时间和持续时间,
5.折线图
- 体现数据的变化趋势
6.双坐标图
- 两个系列数据差别很大时。
7.饼图
- 一个整体分成若干部分,表示每个部分所占的比重
- 简单饼图
- 复合饼图,制作饼图时,有时会遇到这种情况:饼图中的一部分数值的占比较小,将其放到同一个饼图中难以看清这些数据,这时使用复合条饼图就可以提高小百分比数据的可读性。
8.股价图
- 用来显示股价的波动
9.雷达图
- 雷达图因形状酷似雷达的形状而得名。
数据分析常用方法
一、excel数据分组
1.统计分组概念
- 单项式分组:一个变量值作为一组,称为单项式分组,一般适用于离散型变量且变量变动不大的场合。
- 组距式分组:一个区间作为一组,一般适用于连续型变量或离散数据较多的场合
2.利用‘数据透视表’分组
- 去除重复:
- 1.COUNTIF 计算出现的次数
- 2.IF去除重复
二、excel描述性统计分析
1.描述性统计分析的概念
描述性统计主要用于计算总体的总量指标、平均指标、中位数、众数、极差、方差、标准差等。
2.总量指标和平均指标
- 标志总量:总体中某一标志的总和∑–>sum()
- 单位总量:总体所包含个体数的多少–>count()
- 平均指标:average()
3.中位数和众数
- 中位数:median()
- 众数:mode()
4.极差、方差、标准差
-
极差=最大值-最小值
-
方差:VAR.P和VARS
-
标准差:STDEV.P和STDEV.S
5.样本方差和总体方差
- 总体方差的分母却是n。
- 样本方差的分母是n-1。
三、动态数列分析法
1.动态数列的概念
动态数列是指将总体在不同时间上的指标数值按时间先后排列而成的序列,又叫时间数列。
2. 动态数列的速度指标
- 发展速度:两个不同时期的水平值,分析研究时期的水平值叫报告期水平;对比基础时期的水平值叫基期水平
- 定基发展速度:都和某一固定的基期水平比较
- 环比发展速度:和前一期水平比较
- 总发展速度:
- 最终的水平值除以最初的水平值
- PRODAUT
- 增长速度=发展速度-1(或100%)
- 平均发展速度=geomean(环比发展速度)
- 几何平均数
- 几何平均数
excel相关分析和回归分析
一、excel相关分析
1. 相关分析定义
什么是相关分析法?
当研究2种或2种以上数据之间有什么关系时,我们通常会使用相关分析法。
相关分析法有什么用?
研究A与B有什么关系
研究A对B有什么影响
相关分析是研究两个或两个以上变量之间相关程度及大小的一种统计方法,其目的是揭示现象之间是否存在相关关系,并确定相关关系的性质、方向和密切程度。
2. 相关图–>散点图
3.相关系数–>CORREL()
- 协方差–确定变化的方向
- 总结:协方差只能判断两组数据的相关性,不能判断相关程度,于是引进相关系数。
- 相关系数–>剔除了两个变量量纲影响、标准化后的特殊协方差
- 总结
- 当|r|=0时,说明两个变量之间不存在直线相关关系
- 当0<|r|≤0.3时,认为两个变量之间存在微弱直线相关
- 当0.3<|r|≤0.5时,认为两个变量之间存在低度直线相关
- 当0.5<|r|≤0.8时,认为两个变量之间存在显著直线相关
- 当0.8<|r|<1时,认为两个变量之间存在高度直线相关
- 当|r|=1时,说明两个变量之间存在完全直线相关关系,即成直线函数关系
- 当相关系数r很小甚至为零时,只能说明变量之间不存在直线相关,而不能说明它们不存在相关关系。
二、回归分析
1. 回归分析概念
- 回归分析是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法
- 回归是用来估计数据元素之间的数值关系,用来处理回归问题的,主要对数值型数据进行预测
- 回归分析按照涉及的变量多少,分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
比如,在当前案例中,小区人数60万人时,预测超市年销售额是多少?
2. 回归分析原理
回归分析法的基本思路是:当数据分布在一条直线(或曲线)附近时,找出一条最佳的直线(或曲线)来模拟它。
当所有点到该直线的竖直距离的平方和∑(y-y′)2最小时,得到的直线(或曲线)最佳,如图所示。这就是最小二乘法原理(二乘就是平方)。
归根结底,回归分析法就是根据最小二乘法原理,将变量之间的关系模拟成一个数学方程(也叫回归方程,或趋势线方程),以此来推断变量之间的关系的一种统计方法,所以回归分析法也叫数学模型法。
3. 决定系数
当变量之间的关系可以用一个数学模型来模拟时,我们用决定系数(R2)判定数学模型拟合效果的好坏。
在数学上,决定系数R2越接近于1,说明数学模型的模拟效果越好。
4. 利用Excel散点图和趋势线进行回归分析
三、excel相关分析补充
1. 分析工具库的安装
(1)在Excel 窗口中,选择“文件”|“选项”命令。
(2)在随后打开的“Excel选项”对话框中,单击左边的“加载项”选项后,再单击下方的“转到”按钮
(3)在随后打开的“加载宏”对话框中,选中“分析工具库”复选项,单击“确定”按钮
(4)加载成功后,会在”数据”选项卡中看到一个新的功能“数据分析”
2. 相关系数补充
调查××市多家大型超市的月售量(百万元)与超市面积大小(百平方米)、本月的促销费用(万元)、所在地理位置(1表示市区一类地段用、2表示市区二类地段用、3表示市区三类地段)的数据如图所示,请计算各变量之间的相关系数。数据文件为工作簿“相关与回归分析.xlsx”中“相关系数2”工作表。
3. 利用Excel回归分析工具进行回归分析
当前数据中,利用Excel回归分析工具进行回归分析,预测数值
(1)SUMMARY OUTPUT
回归结果中第一组数据的前3个数据分别为:Multiple R(相关系数)R Square(决定系数)Adjusted R Square(校正决定系数)都用于反映模型的拟合度
第4个数据是标准误差,反映拟合平均数对实际平均数的变异程度
第5个数据为观测值(数据的个数)
(2) 方差分析
(3) 回归结果分析
4. 多元线性回归案例
用回归分析法分析上一小节例3中超市的销量与超市的面积大小、促销费用、所在地理位置的关系,并根据回归方程预测一家在二类地段、面积为1000平方米、月促销费5万元的超市月销售额将会是多少。数据文件为工作簿“相关与回归分析.xlsx”中“多元线性回归”工作表。
其他常见数据分析方法
一、其他常见数据分析方法
(1)、象限法
象限分析法有什么用?
- 1.找到问题的共性原因
通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。例如上文案例中第一象限的事件可以提炼出有效的推广渠道与推广策略,第三和第四象限可以排除一些无效的推广渠道; - 2.建立分组优化策略
针对投放的象限分析法可以针对不同象限建立优化策略,例如提升象限二的投放创意,象限四的投放渠道。在不同的应用场景中可以制定相应的优化策略
(2)、RFM分析
-
RFM模型是衡量客户价值和客户创利能力的重要工具和手段在众多的客户关系管理 CRM的分析模式中,RFM模型是被广泛提到的。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3项指标来描述该客户的价值状况。
-
R、F、M指标的代表意义
- R: 多久没来了
- F: 购买多少次
- M:消费多少钱
步骤
- 提取所有用户
- 计算每个用户的R,F,M指标
- 对R F M 各指标进行二分类
- 对二分类后的指标进行组合后对应用户类型
明确目标
1. 确定数据窗口期(快消品一个季度,家电类的要1年)
2、在数据中提取所用的用户
详细步骤
1、点击数据中任意位置,在数据窗口中选择高级筛选,将买家进行去重,提取出来
2、新增三列数据分别为RFM,计算窗口结束日期,求日期列的最大值
3、新增一列为最后一次来的时间,ctrl+shift+回车
4、计算R 分析日期-最后一次来的时间
5、计算F 来了多少次
6、计算M 花了多少钱
7、使用roundown对R向下取整,计算RFM平均值
8、完成RFM指标拼接,匹配用户类型
(3)、综合评价分析法
综合评价分析法是将一系列运用多个指标对多个参评单位进行评价的方法,其基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价。
综合评价分析法主要特征:
-
同时完成多指标评价——避免单一视角带来的局限性;
-
指标的权重分配——全面考虑不同指标对评价效用的贡献度;
-
化含义为排名——评价结果不再是有具体含义的统计指标,而是对参评单位综合状况的排序;
某学生某课程的平时成绩为90分,期中考试成绩为70分,期末考试成绩为80分,那么任课老师最后就会根据学校的一贯要求,综合考虑该学生的这3个成绩,给出一个总评成绩90×20%+70×30%+80×50%=79(分),这就是综合评价分析法的具体应用。
当我们处理的数据性质或单位不一致时,就要将数据进行标准化处理,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
标准化处理最典型的就是0-1标准法和Z标准法。在此介绍0-1标准化法。
0-1标准化也叫离差标准化,是对原始数据进行线性变换,使结果落到[0,1]区间。做0-1标准化法时,对一列数据中某一个数据标准化的公式为:
某房地产商对13名销售人员的销售能力做综合评价(原始数据见图),根据专家意见,评价从“咨询人数”“成交量”“总业绩”3个方面进行综合考量,权重分别为10%、30%、60%。请用综合评价分析法对13名销售员的销售能力进行综合评价。
(4)、假设法
在解释假设分析法之前,我们来做一道小学6年级的数学题:
“小明和妈妈买了10本书,正好花了100块钱,书的单价有8块钱和13块钱2种,那么8块钱的书和13块钱的书各买了几本?
解题思路:
首先,假设这10本书都是8块钱买的,那么10本书一共是80块钱,那还多出来20块钱,是算错账了么?不是,显然多出来那20是13块钱1本的书多出来的。13块钱的书比8块钱的书每本多了5块钱,20块钱可以买4本,那么可以得出结论了,13块钱的书有4本,那么8块钱的书有几本呢?
对了,6本,真棒,奖励你1朵小红花。
这道6年级的数学题里就用到了假设法,假设所有书都是8块钱,那么在数据分析中,什么是假设法呢?简单理解,假设法是在已知结果数据,在影响结果的多个变量中假设一个定量,对过程反向推导的数据分析方法。
- 假设法在运营分析中怎么用?
- 1.已知结果找原因,做过程变量假设
- 2.结果导向做计划,做结果数据假设
假设法的真正用途是针对未知因素提出假设,在数据推导中验证假设的真伪
场景一:已知结果找原因,做过程变量假设
例如:某内容社区在11月份的发帖数相比10月份下降了20%,针对这个结果,该如何分析原因?
那么影响发帖数的有哪些因素呢?
我们可以将发帖数量按照用户分层进行拆分,
1、例如老用户发帖数量和新用户发帖数量,也可以按照具体发帖篇数进行拆分,例如发帖5篇以上的用户,发帖3-5篇的用户,发帖1-3篇的用户,拆分后将11月与10月份相同维度的数据进行对比,找出变量。
2、例如经过拆解后发现,发帖1-3篇的用户相比10月份减少了40%,其他篇数的用户量还高于10月份,那么问题就出在了发帖1-3篇的用户身上。
3、那么发帖1-3篇的用户为什么减少了呢?我们可以提出2个假设:
4、假设10月份发帖1-3篇的用户成长为更加活跃的用户了,造成发帖3-5篇的用户增加,1-3篇的用户减少;
5、假设10月份发帖1-3篇的用户流失率比较高,同时11月份新用户转化少,导致这一群组用户数量变少。
6、那么针对这2个假设,需要对10月份发帖1-3篇的用户与11月份发帖3-5篇及5篇以上的用户进行追踪分析,同时分析11月份新增用户与10月份新增用户在留存和活跃上的对比。
场景二:已知目标找过程,做结果假设
例如:11月份销售为800万,12月份的销售KPI为1000万,该如何做一份销售方案?
这是在做工作计划时最常见的需求,以12月份需要达成1000万的销售KPI为例,拆分销售KPI的相关影响因素,同样有2个拆解维度:
1.从商品角度做拆分
要达成1000万的销售额,为了实现这个结果假设,去做能够支持200万销售额的的过程方案,例如在推广渠道预算上、仓储物流上、人力配置上等方面做计划;还可以针对几款产品提出销售额增长的假设;
2.从人群角度做拆分
要达成1000万的销售额,一方面挖掘老客户的购买力,另一方面增加新客户的来源渠道,假设老用户复购销售200万,那么针对老用户设计营销活动。
总结:假设分析法是在现实应用中常用的数据分析思路之一,数据分析的过程是不断的提出假设、验证假设的过程,通常我们遇到的不知道如何下手的数据分析,可以通过假设法来破局。
(5)、二八法
二八法也可以叫帕累托法则,源于经典的二八法则。
比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中,则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系,排在前20%的才算是有效数据。二八法是抓重点分析,适用于任何行业。找到重点,发现其特征,然后可以思考如何让其余的80%向这20%转化,提高效果
(6)、漏斗法
漏斗法即是漏斗图,有点像倒金字塔,是一个流程化的思考方式,常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。
- 步骤
- 1、计算占位数据,数据由占位数据和实际数据相加,B2单元格公式==($C$2/2)-(C2/2)
- 2、选中A2:C5数据区域,【插入】选项卡,选择【堆积条形图】;
- 3、双击纵坐标轴,在【坐标轴选项】中将【逆序类别】勾选
- 4、分别选中图例、网络线、坐标轴,按DELETE键删除。将“序列1”的条形图颜色填充选择“无填充”
- 5、美化图表,设置数据系列格式的分类间距为“0%”
- 6、插入【形状】中的“流程图-手动操作”,找个空白处画出形状
- 7、复制形状,选中上面的漏斗图,“粘贴”形状,如图,同理后面依次替换颜色并进行粘贴即可
- 8、添加“数据标签”并“设置数据标签”,选中“类别名称、值、显示引导线”
这是经典的营销漏斗,形象展示了从获取用户到最终转化成购买这整个流程中的一个个子环节。相邻环节的转化率则就是指用数据指标来量化每一个步骤的表现。所以整个漏斗模型就是先将整个购买流程拆分成一个个步骤,然后用转化率来衡量每一个步骤的表现,最后通过异常的数据指标找出有问题的环节,从而解决问题,优化该步骤,最终达到提升整体购买转化率的目的。
(7)、对比法
对比分析法在生活和工作的各种场景中广泛应用,如个人发展的进步与否,业务能力是否提高,企业的销售目标能否完成,企业与主要竞争对手的差距等等,具体的分析标准有以下三个维度
-
1、不同的时间周期对比
即选择不同时间的指标作为对比标准。与上一年的同期进行对比称为同比,主要考虑季节周期和淡旺季的影响。与前一时期的对比称为环比。了解相邻时间周期是进步了或是退步了,以便及时分析原因。
-
2、与不同的空间指标对比。
即在同一个时间周期内选择不同空间指标数据进行比较。- a:与相似空间比较,如与同级单位、部门、地区对比,找出自身与同级别部门的差距或优势,分析自身的发展方向。
- b:与优势空间比较,如与优秀企业、标杆部门、行业领袖进行对比,了解自身的发展在行业内所处的位置,有哪些不足,确立发展目标
-
3、与不同计划标准对比
与计划标准对比即与计划数、定额数、目标数对比。如与全年计划目标、活动计划目标对比,通过对比了解自身的发展进度和完成率,分析目标完成的预期和策略是否需要调整。
指标体系搭建
一、指标体系概述
- 指标体系:将各类数据指标系统性的关联起来,按照具体的产品类型,将指标按照其不同的属性及维度进行分类分层。(在业务不同阶段,分析师牵头,业务方协助,制定的一套从各维度去反映业务状况的一套待实施框架 )
1、指标体系的必要性
- 业务复杂性:流程越复杂,越需要搭建指标体系
- 行业毛利:行业毛利越低,企业越需要搭建指标体系;
- 公司规模:公司规模越大,越有必要搭建指标体系。
2、指标体系特性
- 科学性 (指标能反应业务现状并符合行业标准)
- 系统性(要有全局意识,有结构性、层次性;充分体现对业务的解读 各指标有逻辑关系)
- 统一性(不同部门使用同一指标时,指标计算口径要一致)
- 动态性 (监控过程中,是动态变化的,发生变化能够第一时间体现出来)
3、指标体系的作用
- 看清业务现状(不同部门看到一个相对客观的数据,能够统一公司不同部门对业务现状的理解)
- 找出业务痛点,确立分析主体
- 智能指导业务(指标预测,指标预警,异常归因) - 优化产品/业务逻辑
4、指标的构成
- 原子性指标:最基础的不可拆分的指标:如交易额
- 修饰词:可选,某种场景,如搜索
- 时间段:时间周期,如双11
- 派生指标=1+2+3,如双11这一天通过搜索带来的交易额 次日留存,日活、月活、日转化率等
二、指标体系搭建流程
1、理清业务模式(清晰业务阶段和方向)
(1)业务模式梳理的通用方法
-
业务方向:业务方向是什么?
-
主体:参与这个业务的有哪些角色?即主体
-
链路:主体之间通过体系形成链路,各环节链路确定整体模式。
-
关联业务:跟这个业务相关联的其他相关业务有哪些?如何发生关系?
(2)京东自营电商业务
-
业务方向:提高销售额
-
主体:消费者 与 商家
-
链路:商家(选品,上架,配送) 消费者(下单)
-
关联业务:消费者(京东白条,分期付)
-
京东自营优势
- 费用少,不需要扣点和平台服务年费
- 市场大,由于店铺有京东自营的标识,权重高,消费者信赖并且受京东扶持,京东平台每年度总销售额70%+的市场被自营商家占据,只有剩下30%不到的市场给POP商家竞争,造成了市场小而商家膨胀竞争的局面
- 排名自动靠前,流量大,点击率高 D.具有排他性,一个品牌只能有一家自营店铺,独占市场,打造品牌,为长远发展做铺垫
(3)滴滴出行
-
业务方向:出行升级,解决乘客和司机信息不匹配问题(提升成单量)。
-
主体:司机 与 乘客
-
链路:下单,接单,完成
-
关联业务:代驾,车险,省心投等
2、 业务方向的确定
业务阶段判断方法:关注重点,根据业务链路确定整体指标体系,从中根据业务阶段洞察重点关注指标。
- 产品在新业务阶段,还处于生存阶段,关注点在业务是否走得通,是否能经得起市场的检验,用户是否买账。
- 产品在发展阶段,业务确定走得通,就要关注成长健康度,业务增速要跟的上计划,目标拆解成过程指标,体量要迅速增长;
- 产品进入成熟阶段,关注点在生态体系的布局,整体效能的支撑,市场份额占比。
3、确定核心指标(北极星指标)
方向对了,之后的工作才是对的
(1)北极星指标
北极星指标(North Star Metric),也叫作第一关键指标(One Metric That Matters),是指在产品的当前阶段与业务/战略相关的绝对核心指标,一旦确立就像北极星一样闪耀在空中,指引团队向同一个方向迈进。
-
北极星指标的作用
- 聚焦企业现阶段的核心问题
- 统一各团队工作方向
- 明确任务优先级
- 量化团队工作效果
-
如何确定北极星指标
- 确定企业的商业目标和用户价值;
- 我们会列出能够符合这两个愿景的指标,并按照六个标准对他们做对比
- 我们回到商业目标和用户价值环节,探究我们确定的北极星指标能不能在实现商业目标的时候还能让用户持续获得价值。
-
北极星指标的对比及判定标准:
1.能否反映用户从产品中获得的核心价值
2.能否为产品达到长期商业目标奠定基础
3.能否反映用户活跃程度
4.指标变好,能否提示整个公司在往好的方向发展
5.是否简单,直观,容易获得,可拆解
6.是否是先导指标,而非滞后指标
-
京东自营电商业务
-
商业目标: 利润=销售额-成本
-
用户价值: 购买到心意商品
-
- 社交类产品来说,DAU很关键,因为产品核心是人们通过这款产品沟通交流;
- 求职类产品,关键指标应该是活跃有效简历数和发布职位公司数,只有求职者和机会数量可观的情况下,才更加有可能在平台解决大家的职业发展问题;
- 电商类产品,GMV很重要,意味着在平台成交的金额大小;
- 对于视频类产品,目的是为了帮助用户杀时间,那么关键指标是观看时长。
清晰核心指标的评判标准(如何算好):
Target (目标)的制定遵循DUMB原则(Doable: 切实可行、Understandable 易于理解、Manageable 可干预可管理、Beneficial 正向的有益的)
- 目标达成率法:有明确目标要求,直接算达标率
- 竞品对标法: 以竞品为参照
- 生命周期法:主要看环比
- 自然周期法:主要看同比数据
(2) 核心指标维度拆解
(对核心指标进行正确合理的拆解才能帮助定位问题所在)
核心指标的波动必然是某种维度的波动引起,所以要监控核心指标,本质上还是要监控维度核心指标。
通用的拆解方法都是先对核心指标进行公式计算,再按照业务路径来拆(过程指标)。
(3)按公式拆解子指标
- 京东自营电商业务
- 滴滴出行
(4)按流程拆解过程指标
过程指标理论上越多越好,越多过程指标,可以越细的追踪流程,发现问题。但在业务上,不见得每个动作都做了数据采集,因此要结合具体业务流程来,在关键节点加以控制。
- 京东自营电商业务
- 滴滴出行
4、添加分类维度
对子指标及流程指标进行维度划分后更能容易进行归因分析(有利于监控报表的搭建)
- 京东自营电商业务
利用OSM(Object-Strategy-Measure) 模型使业务目标结构化
- O(Objective):是指我们的业务目标。
-
S(Strategy):是指清楚业务目标之后,为了达成上述目标,我们应当采取的业务策略。
-
M(Measurement):是用来反映业务策略有效性、反映策略执行是否能达成业务目标的度量指标。
- 拆解后的OSM
- 电商类指标拆解分级(三级)
- 滴滴出行
- 拆解后的OSM
5、指标宣贯、存档、落地
宣贯:很多人都忽略了这一步,没有指标体系的宣贯和存档,和业务核心人员沟通好之后就开始建报表,然后就完事了。
实际上搭建好指标体系后,要当面触达到所有的业务接口人 ,最好是开会并邮件通知到位
存档:同时要对指标的口径和业务逻辑进行详细的描述存档,如***功能渗透率=该功能的点击人数/日活。
即把相关定义给描述清楚,让人一眼就能看懂
落地:就是核心指标的相关报表了,实际工作中,报表都是在埋点前建好的,这样的话一旦版本上线就能立刻看到数据,
而且这个时候各方的配合度很高。
6、数据采集
为设计的指标体系采集数据(需要进行埋点设计)
埋点就是数据采集领域的术语。它的学名应该叫做事件追踪,对应的英文是Event Tracking 指的是针对特定用户行为或事件进行捕获,处理和发送的相关技术及其实施过程。
数据埋点是数据分析师,数据产品经理和数据运营,基于业务需求或者产品需求对用户行为的每一个事件对应位置进行开发埋点,并通过SDK上报埋点的数据结果,记录汇总数据后进行分析,推动产品优化和指导运营。
埋点的作用就是为了对产品进行全方位的持续追踪,通过数据分析不断指导优化产品。数据埋点的质量直接影响到数据,产品,运营等质量。
埋点事件及属性设计:基于对业务和用户流程的理解进行设计
- 事件设计:APP启动,退出、页面浏览、事件曝光点击
- 属性设计:用户属性、事件属性、对象属性、环境属性
-
京东直营电商下单环节
- 事件设计:订单提交订单按钮
- 属性设计:用户ID,事件时间,商品ID列表,先导页面,渠道等 (时间地点人物) #计算哪个指标
-
滴滴出行呼叫环节
-
事件设计:点击呼叫按钮
-
属性设计:用户ID,事件时间,出发地,目的地,预计时间,里程数等
-
7、指标看板搭建
以上是关于数据分析:大数据时代的必备技能之EXCEL的主要内容,如果未能解决你的问题,请参考以下文章