数据分析会犯的错误,新人十有九中

Posted luoluo-123

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析会犯的错误,新人十有九中相关的知识,希望对你有一定的参考价值。

作者:接地气的陈老师

-----------------------------------------------------------------

讲一个很严重,很明显,但是很容易被新人们忽视的错误:把要求当需求。最最最典型的,某过于老板丢了句“做个用户画像看一下”于是数据专员吭哧吭哧跑数据,做词云,画图标,码PPT。忙得不亦乐乎。最后辛辛苦苦交了用户画像的报告。老板一句话劈头盖脸丢过来

 

“我早知道了”

“你做了有什么用”

“这不是我想要的”

 

那感觉,简直就是一盆冷水泼下来,一口老血涌上头。好想拿出录了“做个用户画像看一下”的录音笔查到丫耳朵里。这还是好的呢。如果碰到一个不怎么懂的话题,比如“做个聚类分析”“做个因子分析”,可能跑数的小哥还得到处找资料,查书,上各种《数据分析爱好者》QQ群问:“有没有大神教一下怎么做啊??”结果回来还是碰壁,就真的气不打一处来了。

 

问题出在哪里?问题出在从一开始,这就不是需求,而是一个要求。并且它是出自非专业人士的要求。举个类似的例子,就好比病人去医院看病,对医生说:“来个感冒药”然后回头说医生“你这药不灵啊!你这医生会不会看病啊!”你说这医生当的冤不冤。

 

冤,也不冤。冤,是冤在明明是病人自己要求的,我按你说的办,为啥让我背黑锅。不冤,是因为大家默认了医生就是专业人士,doctor的另一重含义就是博士,为什么一个专业博士要听不懂医的人安排呢?所以作为专业人士,就得提专业意见。而不是听风就是雨。就算病人指名道姓的要感冒药,你也得问他到底是什么病,对症下药才是正道。

 

具体到数据分析上,类似“用户画像”“聚类分析”“回归算法”只是具体的分析工具,而不是要分析的问题。领导要求看用户画像,可能是因为之前不了解我们的用户群体特征,想要看个概况;也可能是因为对某一类用户有了思考,想看深入分析。这里要我们进一步去挖掘需求,而不是停在表面。具体来说,可以按思路如下图所示:

技术分享图片
 
先确认做这个的目的是什么,是不是想了解用户?是不是了解用户有具体问题?摸清底细再动手

 

这样一层层开展,不但能弄清楚问题到底是什么,而且可以顺便了解下领导期望值。哪些是已知的结论,哪些是未知领域搞清楚,就可以避免“我早知道了”的尴尬。把真正的问题找到,就能避免“你做了有什么用”的窘境。两者结合,自然是做出“我想要的”结果。

 

这样做的另一个好处,是聚焦问题、排除干扰。对于“用户画像”这种可大可小的问题特别合适。因为一提到“用户画像”,大家都会想到一堆用户相关的指标,问题是:我们有没有这些数据?我们有的数据靠不靠谱?是不是解决问题一定需要这些数据?如果不聚焦问题,做出来的东西没有用还是小事。为了搞这个没有用的东西而大费周章,劳民伤财,最后还不落好,就是大事了。当然,业务方可以随口一说:我们需要用“大数据用户画像”解决XX。但做数据的同学们,就得特别小心观察,到底用哪些数据,具体到一个个字段。

 

再进一步的讨论,可以看业务方解决问题的限制。因为实际上能解决问题的手段非常有限。比如业务方想了解“高端用户”的画像。很有可能连这些人开什么车,吃什么馆子,看什么报纸,蹲什么茅坑都想知道。问题是知道这些维度又能怎样?去厕所门上刷小广告“枪支麻药迷昏剂”吗。这种接近窥探隐私的、超细节的分析,更适合用调查的方式进行。数据分析基于内部系统采集数据,还是更适合做基础性的常规采集。这时候可能聚焦:高端用户从什么渠道进入,有什么消费习惯,对哪些品类更忠诚,更容易输出有价值的结果。

 
技术分享图片
一提到用户画像,大家就像各种稀奇古怪的字段,可聚焦到一个问题,比如促销费的问题,这些字段远没有获客渠道、产品组合、营销活动这些字段管用

 

 

类似的问题还有很多,比如“做一个判断模型”“做一个聚类分析”“做一个回归预测”这些都是具体的要求,而不是需求。遇到这一类问题,一定要打起十二分精神,问清楚:

  • 做一个模型用来解决XXXX问题?(真实痛点)

  • 这个问题有没有预判或假设?(真实困惑)

  • 解决问题的时间、方法有没有限制?(可行性)

 

这样摸清底,后续就会做出

  • 很想要的(真实的痛点才真实想要)

  • 眼前一亮(解决了真实的疑惑)

  • 非常有用(考虑了执行可行性)

的分析成果。废话,我们已经到他们知道什么不知道什么吗。很多同学苦思冥想,试图想出一个业务方见都没见过的东西,以为这样才算是分析的高深。殊不知,真要丢出这种结果,十有八九会得到一个:“太离谱了,不符合业务逻辑”的评价。其实好的分析成果不一定复杂,不一定异想天开。答疑解惑,药到病除,才是最好的状态。

 

其他的问题还有很多,限于篇幅,回来慢慢分享,之所以只说了这一个,因为这个是方向问题。是头等问题。这个问题不解决,只怕后续的问题会越来越多。可恰恰在这里,新人们往往不敢深入讨论,怕被鄙视能力不行,怕被人给脸色。可为什么老手们不怕呢?一来是被坑多了,知道为了面子拿自己去填坑不值当。二来是表达技巧会更好,一图以蔽之,看下边。

技术分享图片
了解需求和审问需求方是两个问题,板着脸问:“你为什么要这个数”肯定被人骂,沟通方式可以灵活机动。当然,如何沟通,是另一个复杂的问题了。

 

 

对了,开头的问题已经很有技术含量了。至少提需求的时候提了“用户画像”四个字。更惨的场面,可能是这种:

 

“那谁谁,我要个数”

 

这时候就得更加小心了哈。本质都是一样的,这也是个要求。然而又有很多同学听到要个数,就急匆匆的跑数去了……o(╯□╰)o

 
 
 

以上是关于数据分析会犯的错误,新人十有九中的主要内容,如果未能解决你的问题,请参考以下文章

Python新人常犯的错误有哪些?

易犯的PHP小错误及相应分析

写 Java 程序最容易犯的 21 种错误实例分析

C++编程新手容易犯的10种编程错误

2016第36周三

C++编程新手容易犯的 10 种编程错误