数据分析常见的错误思维

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析常见的错误思维相关的知识,希望对你有一定的参考价值。

0. 不知道的请绕开,前方高能

技术分享

 

1. 一定要用图形来显示数据——So Bigger

大多数的时候,我们需要开发各种各样的图表来满足感官上的成就——然而大多数的图表是没什么卵用的,例如Pie Chart在90%的情境下都是没什么卵用的,所存在的意义仅仅是为了撑版面而已,通常情况下的饼图我是从来不看的。

好忧桑的饼……

技术分享

 

2. 多重比较谬论——概率性事件影响决策

此处请观赏有名的吃糖豆~长青春痘漫画:

技术分享

P < 0.05 的问题我不敢装逼,请看知乎回答(附连接)

作者:stevenliuyi
链接:https://www.zhihu.com/question/21232840/answer/17951143
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

假设有某甲在猜硬币玩,连猜五次后我们发现他次次都猜中。于是我们认为他在做假,因为如果他没做假的话,连续猜对五次的概率只有1/32=0.03125,小于我们预先定义的小概率(比如说0.05)。
(如果知道什么是p值的话,这里我们定义的零假设H0为某甲没有做假,p=0.03125表示我们拒绝H0只有约3%的犯错几率。如果不知道什么是p值的话也没关系,在这里并不重要)

上面这个判断没有问题,但如果涉及到多重比较(multiple comparison)的话就不一样了。前面的例子只用了一枚硬币,而这次我们改用100枚不同颜色的硬币(这就是所谓的多重比较),有红色硬币、黄色硬币、绿色硬币、粉色硬币、紫色硬币等等。实验中,我们让某甲每枚硬币各猜五次,然后我们发现,在猜其他颜色的硬币时某甲都有猜错,但在猜绿色硬币时他连猜五次都猜对了。那么,我们是不是能像前面一样,认为他虽然在猜其他硬币时没做假,但在猜绿色硬币时做假了呢?简单计算一下就可以发现,当我们用100枚硬币做实验时,出现一枚或以上硬币五次都猜对的概率为1-(1-1/32)^100 = 0.958。显然,这时我们就不能再说某甲在猜绿色硬币时做假了,即便单就那一枚绿色硬币来说,连续猜对五次的概率还是只有0.03125。

看懂了吗?说实话我特么的真的没看懂……

当样本足够多的时候,一些看似不可思议的事件就会变成概率性事件。

 

3. 相关不蕴涵因果(correlation does not imply causation)

经典的问题如下:

技术分享

很多人会将相关关系错误的理解为因果关系——因为冰淇淋卖的多,所以溺水死亡的人就多。

你可能会觉得这个问题好Naive,现实生活中不可能有这种傻X,但是事实上,现实生活中类似的案例比比皆是——不仅如此你还很难察觉到,很多数据分析中两个有一定联系的指标维度成线性关联,但是你不能说是因为A导致了B。

强调当两个变数有明显的相关时,不一定表示两者之间有因果关系。

举例来说,流行病学研究曾发现,接受激素替代疗法的妇女,发生冠心病的比率较一般人低,使医界一度认为激素替代疗法有预防冠心病的效果。然而后续的随机对照实验显示,激素替代疗法会使冠心病的发生率增加。重新分析资料后发现,接受激素替代疗法的妇女社会地位多半较高,她们通常有较好的饮食、运动习惯,因而比较不容易发生冠心病。

——维基百科

 

4. 摘樱桃(Cherry picking)

技术分享

摘樱桃的意思是选择最优数据项来描述一个所谓的“事实”,也就是选择性描述数据——反过来讲就是掩盖事实(suppressing evidence),假设我们要收购一家公司,这家公司拿出的财务报表非常漂亮,最高盈利三千万一个月以此来证明公司是有潜力的、值得收购的——但是事实真的如此吗?这种蹩脚的欺骗手法在生活中也是比比皆是,放在数据分析中,我们通常用选择性偏倚(Selection bias)来描述,这通常在选择抽样标本对整个Category进行统计时发生。

最常见的比如:大家都认为是辍学成就了比尔盖茨,而往往忽略了是因为比尔盖茨本来就很牛逼才辍学的,你有种辍学一个试试?分分钟教你怎么做人。

 

PS:一倍和两倍到底啥区别啊?

 

以上是关于数据分析常见的错误思维的主要内容,如果未能解决你的问题,请参考以下文章

数据分析思维|相关思维

数据分析思维|相关思维

MySql思维总结(这一篇就够!)

错题本上的常见错误类型及改正方法

应届毕业生说搞懂数据库MySQL很简单,看完这些思维导图我懂了!

应届毕业生说搞懂数据库MySQL很简单,看完这些思维导图我懂了!