数据分析会犯的错误,新人十有九中
Posted luoluo-123
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析会犯的错误,新人十有九中相关的知识,希望对你有一定的参考价值。
作者:接地气的陈老师
-----------------------------------------------------------------
讲一个很严重,很明显,但是很容易被新人们忽视的错误:把要求当需求。最最最典型的,某过于老板丢了句“做个用户画像看一下”于是数据专员吭哧吭哧跑数据,做词云,画图标,码PPT。忙得不亦乐乎。最后辛辛苦苦交了用户画像的报告。老板一句话劈头盖脸丢过来
“我早知道了”
“你做了有什么用”
“这不是我想要的”
那感觉,简直就是一盆冷水泼下来,一口老血涌上头。好想拿出录了“做个用户画像看一下”的录音笔查到丫耳朵里。这还是好的呢。如果碰到一个不怎么懂的话题,比如“做个聚类分析”“做个因子分析”,可能跑数的小哥还得到处找资料,查书,上各种《数据分析爱好者》QQ群问:“有没有大神教一下怎么做啊??”结果回来还是碰壁,就真的气不打一处来了。
问题出在哪里?问题出在从一开始,这就不是需求,而是一个要求。并且它是出自非专业人士的要求。举个类似的例子,就好比病人去医院看病,对医生说:“来个感冒药”然后回头说医生“你这药不灵啊!你这医生会不会看病啊!”你说这医生当的冤不冤。
冤,也不冤。冤,是冤在明明是病人自己要求的,我按你说的办,为啥让我背黑锅。不冤,是因为大家默认了医生就是专业人士,doctor的另一重含义就是博士,为什么一个专业博士要听不懂医的人安排呢?所以作为专业人士,就得提专业意见。而不是听风就是雨。就算病人指名道姓的要感冒药,你也得问他到底是什么病,对症下药才是正道。
具体到数据分析上,类似“用户画像”“聚类分析”“回归算法”只是具体的分析工具,而不是要分析的问题。领导要求看用户画像,可能是因为之前不了解我们的用户群体特征,想要看个概况;也可能是因为对某一类用户有了思考,想看深入分析。这里要我们进一步去挖掘需求,而不是停在表面。具体来说,可以按思路如下图所示:
这样一层层开展,不但能弄清楚问题到底是什么,而且可以顺便了解下领导期望值。哪些是已知的结论,哪些是未知领域搞清楚,就可以避免“我早知道了”的尴尬。把真正的问题找到,就能避免“你做了有什么用”的窘境。两者结合,自然是做出“我想要的”结果。
这样做的另一个好处,是聚焦问题、排除干扰。对于“用户画像”这种可大可小的问题特别合适。因为一提到“用户画像”,大家都会想到一堆用户相关的指标,问题是:我们有没有这些数据?我们有的数据靠不靠谱?是不是解决问题一定需要这些数据?如果不聚焦问题,做出来的东西没有用还是小事。为了搞这个没有用的东西而大费周章,劳民伤财,最后还不落好,就是大事了。当然,业务方可以随口一说:我们需要用“大数据用户画像”解决XX。但做数据的同学们,就得特别小心观察,到底用哪些数据,具体到一个个字段。
再进一步的讨论,可以看业务方解决问题的限制。因为实际上能解决问题的手段非常有限。比如业务方想了解“高端用户”的画像。很有可能连这些人开什么车,吃什么馆子,看什么报纸,蹲什么茅坑都想知道。问题是知道这些维度又能怎样?去厕所门上刷小广告“枪支麻药迷昏剂”吗。这种接近窥探隐私的、超细节的分析,更适合用调查的方式进行。数据分析基于内部系统采集数据,还是更适合做基础性的常规采集。这时候可能聚焦:高端用户从什么渠道进入,有什么消费习惯,对哪些品类更忠诚,更容易输出有价值的结果。
类似的问题还有很多,比如“做一个判断模型”“做一个聚类分析”“做一个回归预测”这些都是具体的要求,而不是需求。遇到这一类问题,一定要打起十二分精神,问清楚:
-
做一个模型用来解决XXXX问题?(真实痛点)
-
这个问题有没有预判或假设?(真实困惑)
-
解决问题的时间、方法有没有限制?(可行性)
这样摸清底,后续就会做出
-
很想要的(真实的痛点才真实想要)
-
眼前一亮(解决了真实的疑惑)
-
非常有用(考虑了执行可行性)
的分析成果。废话,我们已经到他们知道什么不知道什么吗。很多同学苦思冥想,试图想出一个业务方见都没见过的东西,以为这样才算是分析的高深。殊不知,真要丢出这种结果,十有八九会得到一个:“太离谱了,不符合业务逻辑”的评价。其实好的分析成果不一定复杂,不一定异想天开。答疑解惑,药到病除,才是最好的状态。
其他的问题还有很多,限于篇幅,回来慢慢分享,之所以只说了这一个,因为这个是方向问题。是头等问题。这个问题不解决,只怕后续的问题会越来越多。可恰恰在这里,新人们往往不敢深入讨论,怕被鄙视能力不行,怕被人给脸色。可为什么老手们不怕呢?一来是被坑多了,知道为了面子拿自己去填坑不值当。二来是表达技巧会更好,一图以蔽之,看下边。
对了,开头的问题已经很有技术含量了。至少提需求的时候提了“用户画像”四个字。更惨的场面,可能是这种:
“那谁谁,我要个数”
这时候就得更加小心了哈。本质都是一样的,这也是个要求。然而又有很多同学听到要个数,就急匆匆的跑数去了……o(╯□╰)o
以上是关于数据分析会犯的错误,新人十有九中的主要内容,如果未能解决你的问题,请参考以下文章