来看看我们数据分析过程中的那些坑
Posted 淘宝小2哥
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了来看看我们数据分析过程中的那些坑相关的知识,希望对你有一定的参考价值。
今天端午节,小2哥祝所有商家和网友节日快乐,端午安康,对于做淘宝的人来说,是没有节日这个概念的,我今天也继续奋斗在工作岗位,闲暇之际,抽点时间来和大家分享分享自己的一些对数据分析的感悟。
我在很多场合经常听到有人说:数据有毒
其实,有毒的不是数据,而是我们不懂的分析数据,只知道看表面的数据,没有理解出数据背后的东西。
我在书友会和书友们说:很多的时候,如果你没有跟着我学数据分析的时候,你凭借着你的经验和第一直觉做可能你还会做的更好一点,但是如果你跟了我学数据分析之后,可能你反而会做的越来越差?
因为有很多人他第一直觉和经验其实比较好的,不听数据分析他做的决策反而可能正确一些,但是自从他听了我的数据分析之后,他开始不相信自己的直觉和经验,他只相信数据了,特别是看到那些直观的图表的时候,他更愿意去相信数据,可是遗憾的是他只看到了数据表面的东西,并没有把隐藏在数据背后的东西挖出来了,所以他反而让数据表现的东西给误导了,做出了错误的决策。
我们来看看那些经常因为数据误导我们的案例,这里先举一个例子,很多人经常会去分析关键词的人群画像,下面这个数据来自的是“长袖T恤女”这个关键词的数据
从这个数据我们可以看到的是18-25岁的人占比最高。所以很多人说,这个关键词背后搜索和喜欢的人群是18-25岁
其实,如果你说关键词背后搜索人数最多的是18-25岁,那么这句话肯定是对的,这数据也肯定能说明的,但是你没办法说明长袖T恤最受欢迎的人群是18-25岁
我们再来看一个图,这个图是2015年6月和2016年6月网民的年龄结构分布图,当然,很遗憾的是我没找到今年淘宝网民年龄的结构分布数据。但是从上面这个图里面我们可以看出40-49岁的网民只占了总网民的百分之13%左右,而这个数据还是网民数据,不是淘宝用户的数据,淘宝用户的数据只会比这个数据低很多,因为现在很多40-49岁的人都会玩微信,他们算网民,但是这里面有很多的人从来是不淘宝购物的,他们就算不上淘宝用户,特别是广大农村地区,这个年龄阶段的人用微信的特别多,但是用淘宝的非常小,
这个时候我们再回过头来看第一个数据,搜索长袖T恤女这个关键词占比最多的人群是18-25岁,但是这个只能说明搜索这个关键词人数最多的是18-25岁人群,并不能说明长袖T恤在18-25岁的人群里面更受欢迎。因为本身这个18-25岁人群在淘宝用户中基数就是最大的,同样的我们再看,40-49岁的这个人群,他虽然只占比16%,比起其他的年龄阶段来说人群占比算比较低的,但是他在淘宝用户这个人群中占比也是非常小的。如果这个数据换一种表达方法,就是每个占比只以各自的年龄阶段为基础,那么估计40-49岁的数据就要比18-25岁的数据大很多了。
我们继续来看另外的一个案例,很多人都喜欢做市场容量的分析图,去分析市场的容量,他会把过去一段时间的支付金额做成饼图,然后分析根据这个图的占比来分析他的市场容量
例如,我们在图上看到裤子的市场容量占比是10%,而T恤的市场容量占比是8%,如果从表面上来看,裤子的市场容量是比T恤要更大,但是如果你仔细了解一下背后的数据来源你可能就会有不一样的答案,裤子的数据是有打底裤,休闲裤,西装裤,棉裤/羽绒裤等多个子类目组成,而T恤下面并无子类目,他的所有数据都是来自T恤这个子类目,而且,T恤主要是集中在夏季这一个季节,到了冬季的时候,虽然也有长袖T恤,但是那个占比已经比较少了。而裤子不同,长裤,短裤都是裤子类目,除了牛仔裤外,其他的子类目裤子都是在裤子这个类目,因此,如果你完全根据这个数据的大小去选择市场容量的话,你可能就会出现问题
有些人在选择市场切入的时候,喜欢选择这种数据大的市场容量的市场,不会去选择数据小的市场容量的市场,他们认为数据小的说明没有市场。
其实,这里面也是会经常误读的,例如上图,有一个抹胸市场容量占比是0%,可能很多人会觉得这个类目没有什么市场,不值得的去做。
但是你搜索抹胸这个关键词然后按照销量排名,你觉得这个市场容量会小吗?
很多的时候我们就是容易让数据表面给误导,例如抹胸我们做的图之所以市场容量为0%,是因为第一个我们统计的数据是按照支付金额统计的,而抹胸因为客单价非常低所以他的支付金额特别比较低,可能三四件抹胸的都没有一件T恤的价格高,这也就导致了他的支付今天看起来比较低,如果你换成的是成交件数,那么肯定你就会得出另外一种结果,另外,0%不代表是真的0,而是因为四舍五入最后的结果是0%。0.4%的结果也是0%,可能很多人还是会说0.4%还是比较低,其实,低和高要看你的基数有多大,如果你的基数是100000亿,那么这个0.4%的数量也不少了的。
继续再来看一个例子,我们在优化标题的时候都喜欢去看关键词的搜索指数,很多人只要看到搜索指数低的人就认为是没有人在搜索,这种词就不应该用
例如大家看到上面这个图,可能很多人会觉得这个词带不来流量,因为都没有人搜索,而我曾经有一个宝贝前期就是靠这个关键词带来流量的,虽然每天没有太多,就那么几十个,但是,因为这个词特别精准,我的宝贝竟然每天能成交那么一两单,对于前期来说,这个数据已经非常好了。
其实,这个也是很多人对数据没有去了解他背后造成原因导致的结果,他把搜索人气零当成了是没有人搜索,其实根本就不是这个意思,搜索人气是根据统计周期内的用户搜索人数拟合出的指数类指标,也就是说,这个数据让淘宝处理了,0只是代表他趋势很小,相对其他的关键词来说,他的这个搜索人数可以忽略不计。但是并不代表他完全没有搜索,中国好几亿的淘宝用户,每天如果只有几十百来个人在搜索,这个数据相对于整体来说基本可以忽略不计,但是如果没有人和你竞争,那么这几十百来个流量也就是你一个人了,对于很多新店铺来说,前期每天能有几十百来个流量也是好的,最关键的是因此词精准,转化率高,虽然每天只能带来一两单,但是相对那些一天一单都带不来的商家,这个数据也算好的。
举例了这么多,其实都只是想说明一个点,在分析数据的时候,一定要重点分析的是数据背后的东西,他是怎么造成这个数据的,要从多个维度去分析数据。而不是简单的只看看表现的数据,然后根据表面的数据就下决定。
以上是关于来看看我们数据分析过程中的那些坑的主要内容,如果未能解决你的问题,请参考以下文章
那些年我们一起踩过的Spring Cloud Gateway获取body的那些坑