亚马逊商业智能科学家:当心你的数据会说谎,不要做数据骗子
Posted 36大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了亚马逊商业智能科学家:当心你的数据会说谎,不要做数据骗子相关的知识,希望对你有一定的参考价值。
我们都觉得数据科学家应该是客观的,但他们却可能有意或无意也可以带来误导的结果。我们研究了数据科学家们应该知道的三种常见的“谎言”。
我们认为数据科学家和分析师是客观的,他们应该根据数据得出结论。这份工作要求使用 “数据”,而不是谎言作为完成工作的基础材料。但实际上却恰恰相反,数据科学家受到无意识的偏见、同侪压力、紧迫性以及其他因素如在数据分析和解释过程中存在导致撒谎的固有风险的影响。这一切都是客观存在的,而科学家自身的出发点却没有问题 ,就像西谚所言:“通往地狱的道路是用好意铺就的”。
由于每个国家的每个行业都受到数据革命的影响,我们需要确保了解可能影响任何数据项目产出的危险机制。
平均值这种过度使用的聚合度量造成了无处不在的谎言。无论何时使用平均指标 - 除非底层数据正常分布(这种状况很少出现) - 平均值都无法反应现实的任何有用信息。当数据分布偏斜时,平均值将受到影响,没有任何意义。平均值不是一个强大度量工具,容易受到异常值与正态分布有偏差的影响。
虽然统计学家几十年前就知道了这些事实,但平均值仍然作为一个核心统计数据用于商业、机构和政府,可以驱动数十亿甚至数万亿美元的决策。那么怎么解决平均值的问题?不要使用平均值,本文不鼓励使用平均值,平均值仅在极少数情况下才有效,在公布统计度量值之前,您应该仔细思考数据分布。解决问题的第一步 - 使用中位数, 使用前99%和最低的1%指标来统计数据。
“平均值”一直是科学的基础数据 ,很多追随者对平均值深信不疑,他们对待它就像是对待宗教一样。原因是什么?由于 很久以前自然科学中的正态分布假设已经蔓延到的其他领域,特别是业务分析和其他企业数据应用。这已经毒害了了几代分析师,他们到目前为止仍然使用平均数据。
现该步骤是经典的解决方法。即使在交付使用数据解决问题之前, 即使该步骤也会影响到偏差,我们也要确认偏差。 数据科学家认为解决问题的必然方式可以从根本上改变应该是客观的过程。 当对有关事项有强烈的情绪,比如表达或暗示时,这种偏见就会加剧。 通常很难确定偏差,但这确实是区分专业数据分析师和平庸人事的不二法门。
典型的状况是,当需要完成一个分析时,因为需要根据结果做出决策,因此分析师需要快速提供分析结果,这会带来很大的压力。 这时结果中就会出现很多偏见,但确认偏差却能让分析师摆脱偏见的束缚。 如果数据科学家不得不快速得到结果,他们不得不快速回答或者解决问题。 这意味着他们会把发现的第一个杂散相关就当做答案。 在这些情况下,数据科学家搜索证据以确认假设,即“为假设寻找数据”。
所谓“正确”的解决方案先入为主的进入了数据学家的大脑,导致数据科学家走向错误的方向,他们开始寻找证据。 这时的数据探索并不客观,为得到预先定义的结论,会出现数据的调整和挤压。这时最重要的是从一开始就清楚地定义要求,收集有争议的假设的证据和数据,即收集那些可以证明、反对假设或者与假设不相关的证据和数据。最后一步同样重要,因为急于找到为问题找到解决方式,数据学家可能会忽略可能无法获得总结或者解决问题所需的足够的数据量。这不是大问题,也许问题本身需要重新定义。
人类的大脑可以很好地识别模式。 但这是数据科学家的致命陷阱。 许多数据科学家被雇用“找到”模式,因此发现的模式越多,则工作就做的越好。 这种错误的成功指标导致了大量工作的重点是搜索模式、细分和“特别的东西”。 很多时候会超出预期,会有很多干扰,但这又很正常。
这导致了不存在的商业模式的虚构情境,依据这些情境做出决策,最终影响实际人口并强制实现这些模式。有一个非常简单的例子 - 寻找客户细分,并试图让他们从一个细分“转换”到另一个细分。 当一个目标“细分”被推向另一个“细分”时,会带来实际的影响。 但这是非常危险的,可能导致许多错误决策,造成重大的损失。
这绝对不是最终的决绝方案,你应该认识到可以影响判断和洞察质量的其他认知偏见。 但这些都是非常常见的陷阱,我已经看到数据科学家陷入这些陷阱,然后无意中又弥补谎言,而不是寻找真相。 客观性不是一个容易实现的目标,客观性需要自我约束。 数据越来越多,数据科学家的作用只会变得越来越重要。
最成功的数据科学家将非常重视可能存在的潜在偏差以及这些偏差可能导致的谎言。
说到数据会说谎,最有欺骗性的的例子莫过于统计学中著名的辛普森悖论(http://en.wikipedia.org/wiki/Simpson's_paradox)了。看看来自斯坦福讲义里的一个简单例子(http://plato.stanford.edu/entries/paradox-simpson/#Causation)。
某大学历史系和地理系招生,共有13男13女报名。
Men/Women
History 1/5 < 2/8
Geography 6/8 < 4/5
University 7/13 > 6/13
历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。
分析数据,会发现以下问题:
1)整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。
2)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。
译者:张鲁
未经许可不得转载。
End.
以上是关于亚马逊商业智能科学家:当心你的数据会说谎,不要做数据骗子的主要内容,如果未能解决你的问题,请参考以下文章