这是我学习数据分析的笔记,怎么和你们的不一样?
Posted 人人都是产品经理
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了这是我学习数据分析的笔记,怎么和你们的不一样?相关的知识,希望对你有一定的参考价值。
本文为平台特约稿件,未经许可,禁止转载
全文共 5834 字 15 图,阅读超过 14 分钟
———— / BEGIN / ————
这次我们来聊聊产品经理的必备技能:数据分析,这也是18年我获得的最大收获之一。
为什么想单独拿出来聊聊,我归纳为三个原因:
第一是重要,不重要的事谁会拿出来说不是;
第二是网上的文章理论偏多,实际真实案例少,谁会用一大堆概念和飘在天上的话去工作;
第三是对自己的复盘,算是对自己今年的一份重要的工作总结。
话不多说,正文开始。
在切入正题之前,先来总述一下数据分析的作用。
通常的答案都是什么了解产品现状,知悉业务发展之类的,都不够概括,严格定义上的数据分析作用一共有4条:
描述性分析,故名思义,主要是对已经发生的事实用数据做出准确的描述。比如某企业订单履约率从上月的98%下降到了95%,属于偏基础类的工作;
诊断性分析,在知道了发生什么之后,更重要的是,我们要明白为什么发生。比如经过分析,发现订单履约率下降的原因是成品生产不出来,无法完成交付;
预测性分析,基于上述两个层次的分析,我们发现了其中的规律,即原材料供应商的送货及时率会影响成品订单的履约率。假如上月某原材料供应商A送货及时率只有70%,通过建模,我们可以预测本月该供应商会使我们的订单履约率下降2%;
处方性分析,有了预测性分析的结果后,我们无需再做事后诸葛亮,而可以运筹帷幄,在事前就采取措施。上例中,供应商A会导致本月我们的订单履约率下降,我们可能采取的措施就是把A换掉,但是现在有B和C两个供应商供我们选择,该选择哪个呢?通过分析和计算得出:选用供应商B会比选C的订单履约率高1%,因此建议选择供应商B。
常规情况下,产品经理对于数据分析只需要掌握到诊断性分析即可,根据诊断性分析结果出相应的解决方案,后面两个更多的是数据分析师的工作,更为专业,深入。
在案例介绍前,再啰嗦一下我在处理数据分析工作时候的步骤:明确分析目的,数据收集,数据处理,数据分析,数据展现,报告撰写。
展现和撰写这篇文章就不说了,因人而异。
我主要说一下确定目的、数据收集和分析环节:
确定目的,别以为这个就那么容易,不夸张10个人有8个不知道自己想干什么;
数据收集,其实就是定义指标,把指标和规则定义清晰,要看活跃,几日活跃,怎么算活跃,很大程度决定了研发的时间周期有多少,很多情况是产品没有想在前面,开发过程中反复去沟通,确认规则,导致数据获取的成本异常大,延期也就在所难免了;
数据分析,要选择科学的分析方法,目前分析方法多种多样,对比分析、交叉分析、结构分析、平均分析等,根据这个案例选一个最适合的数据分析方法,才能事半功倍。
案例开始,先同步一下背景,有一个内容型的小程序,各位理解成小程序版的今日头条即可,想要研究的是一进入小程序默认刷新还是手动刷新对用户流失的影响,当前为用户进入小程序后需要手动刷新,如果改成进入后程序默认刷新对流失有所缓解。
针对这个命题,各位都会怎么答?
有可能直接就拆解目标,定义指标进行分析了。
不好意思,可是我会先要做的是现状流程图,供我们更清晰的了解都发生了什么。
我们先从目的下手——目的有什么?
从课题能获知到的关键行为有刷新、流失这两个关键节点,将这两个节点连线,发现中间的部分是刷新后的反馈,也就是刷新有内容,刷新没内容:
用户可能的后续的行为,通过历史数据可知,有退出行为、其它产品功能行为、浏览行为、刷新行为:
根据现状需要画流程图一张:
Tips:
1.产品经理画流程图是个好习惯,会有助于自己和别人理解你要做的事,并指出问题。
2. 产品经理的工作简单也不简单,简单在于只要思考进行决策就可以,不简单在于如何去把问题想清楚,会刷下去一大批人。
其中退出行为分为:有效退出,无效退出,和无退出行为。
有效退出定义一个有效退出时间即可,比如退出时间-进入时间大于10秒以上。
有人说了:退出不是只会有直接退出吗?
这里需要特别说一下,有交互的都已经分离出来了,只剩退出,怎么还分?因为有可能用户是在认认真真的看这屏的内容,一屏就已经到上次浏览过的,而这次新的没有感兴趣的,或者是用户上次误触退出,这次重新进入仔细观看,依然没有感兴趣的,再退出。
无效退出与之相对:在条件外迅速退出的用户,判定为分析时要剔除的用户数据,要做细。
整理一下可见下表:
将上述情况,穷尽组合后,情况可见下表:
12种,并不多,接下来做什么,要发挥产品经理的另一个特性了,分析,标记每一个用户行为的理由,并且筛选出你所关注的和你所对比的,比如:
还记得最开始的题目吗,手动刷新改为默认刷新对用户的影响,我们需要从上述一大堆东西里拆出来的是你要用的,剔除掉无用信息用作分析。
要的是想清楚我们要什么,以及定义清楚我们要什么,这是最难的。
从交互层面来看,分为刷新过和没刷新过,可以理解为把没刷新过的用户变为系统帮你刷新,而原有自己刷新的用户作为对照组,把无效退出作为结果。
一般来看,无刷新肯定没新内容,有刷新的情况统一一下,最后预估出来影响范围。
一般来看,以本业务的情况,影响范围会有在线时间、浏览文章数、复登情况,主要考虑的是复登,因为你担心的是流失。
正常情况下,能做到这一点的,基本就可以结束了。
纳尼,结束了吗?
铺垫了那么多。不,早着呢!
如果按照5W2H进行划分,谁、在哪儿、做什么、什么时候、为什么做,上面的仅仅包含了做什么,还剩一堆东西还没有呢!
先说“谁”该怎么划分:
通过广义定义,我们可以区分为新用户和老用户,粗暴定义一下:新用户是从未进入过小程序的用户,规则为当日生成的open ID即判定为新用户当日活跃,无论当天多少次再回访,也均判定为新用户当日活跃;而老用户是已经生成open ID的用户,老用户还可以利用活跃行为进行分层,常规来看可以分为次日活跃、7日活跃、30日活跃、90日活跃、1年内活跃,因为产品上线不足1年,故此取前几种。
从历史数据来看,该业务对性别可能较为敏感,对省市地区不太敏感,故此再加上性别因素,省市暂时不考虑(一会你就知道省市不考虑是救了多少人的性命)。
好,按照以上的组合,可以列出用户分层如下表:
这还仅仅是硬性用户分层,在考虑问题的时候,还要加上业务状态机。
什么叫状态机?
就是:你的用户在当前经历了哪些业务行为或者关键功能,你认为与本次实验有关的都要纳入进来,若你是开疆拓土的人,你要把所有的变量都想到,然后去搭建数仓,才能经得起后续的多维度组合分析的折腾。
本次分析实验不多说,只说最重要的2个业务状态机:一个是是否订阅,一个是有无浏览行为。
可能有些同学已经猜出我下面要做什么了,没错,表格呈上:
有必要这么麻烦吗?
很遗憾,产品经理的价值就全在这里了——你若前期不麻烦,后期研发怎么办,skr~~
这就是仅仅4种状态组合后的用户分层情况list,40种情况,每种,都要对应后续的行为进行接入分析——因为每种人群都是可以在后续做任意动作的,所以这个分析是多维对多维。
当你都列清楚以后,你才能获知你真正要分析的数据到底是什么;记住别怕麻烦,怕的是不够用心。
别急,要想完成分析工作后面还有——流程状态:当用户进入小程序的时候,有5种行为,加上上面4种(浏览行为,刷新行为,其它功能行为,退出行为),多了一个滚动行为:
且这个和上面用户状态不一样——因为是流程,所以5种的流程是可以任意调换前后发生的顺序的,比如不浏览先刷新再滚动,或者先滚动再浏览再刷新;而每种行为都可以再细分状态,滚动行为可以分为3种:一般滚动行为,滚动到上次浏览,和无滚动。
想清楚了之后,接下来怎么做?
没错,画表格,显而易见会非常巨大:
我没有做流程调换,仅用初始状态做了示意;真正展开无差别分析的话,严谨进行可行性分析之后输出全部状态的,以此业务为例,极限状态就是这种可能——
不过很容易就能看出:有一些是可以合并的,比如dz-72,无论怎么调换都是一样的。
这个表,对于数据可视化工具来讲,就是桑基图,这个货:
我们费这么大劲是为了什么?
用户动机。
没错,上面的整理叫流程动机;我们分析的时候可以从结果动机下手,需要把相似的结果动机的流程放在一组,以上述为例,结果动机就是有效退出,或者无效退出。
——这就是精细化分析。
不同的顺序对于不同的动机也不一样,比如一上来就刷新的,好像就是我们优化以后的预期情况?和哪个原始组作对比?优化了以后能提升多少KPI指标?是不是都能进行预估出来?
这样进行的对照和对比,这样出来的结果才是严谨的,且可控的,用于指导你的决策。
最初的对照组1和2,也可以出结果——但是你永远是个小学生的水平,而无法成一个初中生和高中生。
记住,这些工作都是在锻炼产品经理的另一个核心竞争力的技能:用户动机判断,包含心理层面和产品层面,自己要去理解用户才有可能做好。
所以反观回去看看,最开始的流程图觉得还叫流程图吗?你提的需求还叫提需求吗(我要分析一下默认刷新和手动刷新的流失关系,埋点就埋手动刷新数就好)?不是找打?
不过话说回来,真正用于数据分析的时候,上面吓死人的表格一定不是这样整理、分析,这样分析你自己会崩溃,并且这么提需求研发也会打死你;要求的是对产品经理另一个变态能力的掌握——业务抽象能力。
我一般会针对此也会抽象出下面这样的表格直接给到研发,一目了然,也可以一起查缺补漏:
研发只需要知道的是维度,交叉分析是你要提给或者数据分析师自己就应该做的事。
别觉得几千种可能性很可怕,数分析师还是比较轻松应对这些的;如果是对用户属性及其敏感的业务,一定要把用户逐一分层再带入后续流程进行分析,也就是编号ny那张表,每个属性的用户对后续操作的转化率可能都是不一样的:
你可能做了一个策略,对大多数用户群有效,正数多负数少,大数上看来就是正数有效的:
但是这不是做增长产品的态度,市场增长就是要无所不用其极,从牙缝里扣东西。
拆解清楚每一个策略对用户的正和负,保留下对新策略正向的用户群,其它用户群进行回滚保证不降低:
这样持续的做下去,你的产品虽然复杂性越来越高,但是真的能获得实打实的认知产品、分析结论和用户增长。
这些数据维度和指标,不光代表了你的产品力,也代表了你提需求的水平,在规划需求的时候这些都要想到,后续研发在进行工作的时候才更好的预估难度和工期——否则等你的要么是没有结论的改版,要么是暗无天日的延期。
请把需求提明白,前提是你能把你要什么想明白。
别想当然,每一个动作牵扯的因素都非常多,想清楚在动手。
另外,本次的流程我仅仅局限在做关键动作之前的拆解,而后续的影响分析更为重要,也就是上述的回流、阅读、在线时长等。
假设你上了个策略,通过欺骗的手段让用户的转化率提升了,但是总体的7日效率下跌了——这还了得,时间线短了说对其它业务、功能的影响一定要想清楚,严重了说你要是影响了充值功能,可怎么办?
一定要想好后果。
上述的表格仅作为示例,我就不做更详细的拆解和分析了,感兴趣的小伙伴可以接着做下去,是对初入产品的同学应该会有着帮助;一定从相同的结果动机下手,找到过程动机相同的对照组,去理解用户,这样的进行改版前的数据辅助分析,才能真的预估改版的合理性,需求的真伪性。
在得出结论后,也要学会验证结论,可以利用交叉验证的方法,都是可以侧面去验证结论让分析做的更加可靠,严谨的。
上述列举了近期的一个案例,不是我自身的,全凭个人兴趣深挖发挥。
不过数据分析也不是万能的,有一些误区呈现给大家:
1. 选取的样本容量有误
忽略了有效用户,囊括了无效用户。
上述案例中,若把用户行为拆解开,能发现很多不一样的特征和细节;同时有时候样本容量的原因,样本过少会让结果变得不可测,样本过多也有可能只在乎少量用户的数据忽视了整体——有时候需要制定相同的抽样规则,减少分析结论的偏差性。
2. 错判因果关系
错判因果关系,商品评论多商品卖的就一定多吗?上述案例时,你能发现流失少就是刷新的功劳吗?
并不一定,有时候分母不一样才是你获得错误结论的罪魁祸首。
在分析数据的时候,正确判断数据指标的逻辑关系应该找几者之间的相关关系而不是因果关系。
3. 被数据的表达技巧所蒙蔽
在做数据分析时,我们需要警惕一些数据处理的小计俩,最小区间,上下极值,主次坐标轴等,不要被数据的视觉效果所蒙蔽。
4. 过度依赖数据
不要过分依赖数据,做一些没有价值的数据分析,很多牛逼的产品决策,并非通过数据发现的,而是一个产品经理综合智慧的体现。
最后还没有重视起数据分析的企业应当着重注意了,传统老牌沃尔玛就是从数据分析中获取到了巨大的宝藏,从以下3个方向足以说明一切:
在价值认知上,传统企业需要认识到数据分析是能够带来的巨大价值,且这种价值是可留存的,得天独厚的竞争壁垒;
在方法论上,传统的企业不必在不同部门里面推行数据分析的各种方法体系,这些体系已经被欧美总结了至少30年,很多我们没有必要重新发明;
在技术工具上,国内已经如雨后春笋一般生出很多数据分析平台,工欲善其事,必先利其器,这是每个企业提高效率最好的手段和途径,让传统企业转型高科技企业的难度大大降低。
说了那么多,希望大家不要被网上那么多的概念所迷惑,产品经理不能为了数据分析而分析,而要将落脚点放到产品和用户上。
数据分析应该帮助产品经理不断优化产品设计和迭代,驱动产品和用户增长,做好成本把控,风险预测才是本质目的。
工作中处处留心,可以避免走入很多的误区。产品经理每一个决策几乎都要牵涉到很多方面。
磨刀不误砍柴工,多想想再去做,说不定效果更好。
上述的案例是偶然听到的,不是自己经历,全凭自己兴趣进行深挖,可能会有分析不到位的地方,多多理解。
希望能给各位提供良好的数据分析的思路,足以,欢迎多多交流。
———— / END / ————
———— / 推荐阅读 / ————
3大城市/4大实战派导师/100+总监级校友
运营总监修炼之道,只等你来!
点击“阅读原文”查看更多课程详情
以上是关于这是我学习数据分析的笔记,怎么和你们的不一样?的主要内容,如果未能解决你的问题,请参考以下文章
为啥我页面保存的年月日,Mysql数据库里正确的,提取到页面的时候跟数据库的不一样,时间是date类型的