2016数据科学报告:数据科学家依然受追捧

Posted 数据科学家联盟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2016数据科学报告:数据科学家依然受追捧相关的知识,希望对你有一定的参考价值。

本文为数盟原创译文,转载时请务必注明出处为“数盟社区”,并将原文链接置于文首。

出品方:CloudFlower

前言

我们的《2016数据科学家报告》是去年的努力的后续行动。我们的目的是调查有着多年经验和专业领域的专业数据科学家,从而了解他们的职业,以及他们每天的日常工作是怎样的。

我们的发现非常有趣。对创业公司而言,数据科学家把多数时间花在做他们不喜欢做的事。然而,他们中的绝大多数仍然热爱他们的工作。我们重点关注数据科学家认为机器学习在特殊领域和整个行业中有何等的重要性。我们还得到了关于这个领域未来五年发展的各种观点迥异的预测。

方法

与我们的《2015数据科学报告》相同的是,今年的报告来自于对真实科学家的真实调查和访谈。我们问了他们一系列关于他们的日常工作的问题,他们遇到什么挫折,以及更多问题。我们也在我们的平台上提供了几个职位来寻找雇主正在寻找的特定技能,从而使科学家知道什么技能是需求量最大的。我们将最有趣的趋势整理出来,并在报告中呈现。我们希望你喜欢它。

谁参与了调查?

首先,让我们了解一下我们调查的数据科学家种类。我们的观点收集覆盖了从高级CDO到初入领域的人。他们有不同的技能和多样化的专长领域。

由于数据科学仍然是一个相对新的领域——曾经在《哈佛商业评论》中被D.J Patil称为21世纪称为21世纪最性感的工作——这并不奇怪,大约三分之二的受访者进入该领域仅5年或更少。

这并不是说我们只调查刚从大学毕业的数据科学家,其实,我们最大的受访者范围介于两年到五年经验之间。

发现

数据科学家依然供不应求(而且可能会变得更严重)

去年我们发现,有79%的受访者表示,有在该领域的数据科学家的短缺。虽然这已经十分惊人,但我们的调查发现在2016年这种情况可能会变得更糟。

83%的受访者表示没有足够的数据科学家来解决问题。而随着越来越多的企业和组织对数据进行投资,这一趋势可能继续。

数据科学家热爱他们的工作

尽管没有我们没有足够的数据科学家来走访,典型的数据科学家是热爱自己的工作的。我们要求受访者在一个简单的五点量表上排出他们在当前位置的幸福感。超过三分之一的受访者(35%),给他们工作打出最高分。约一半(47%)给了4分。

换一种说法?超过80%的数据科学家在工作中真的很开心。

那么,为什么会这样?当然,你很难从一个简单的调查来解释它。但是从不同的反应来看我们得到了关于数据科学的未来,最显著的收获是受访者对工作领域的革新如此兴奋。他们通过实践举出示例,他们看到他们的工作如何变得更加有趣、减少重复,都同时表达着真实的对工作的热情。

随着数据的科学变得越来越司空见惯,同时也在一点点的被揭秘,我们预计这一趋势将持续下去。毕竟,去年的受访者对他们的工作同样表示兴奋(约79%是“满意”或更好)。

一个数据科学家如何度过一天

这里对数据科学家的流行看法与现实相左。一般情况下,我们认为数据科学家就是建立算法,研究数据,做预测分析。但是这实际上不是他们花费大部分时间在做的事。

正如你可以从上面的图看到的,我们所调查的每5个数据科学家中有3个实际把最多的时间花在清理和组织数据上。你可能听说过这个被称为“数据的争吵”或相对于数字看门的工作。来自列表验证中的一切删除逗号来调试数据库-那段时间加起来,这极大地增加了。凌乱数据是迄今为止典型数据科学家的工作流程最费时的地方。而近60%的人表示他们花了太多的时间做这个事。

为什么会出现上述问题?

简单的说,数据争吵很无趣。它是无止境的。事实上,在几年以前,纽约时报估计多达80%的数据科学家都把时间花在这种工作上。

在这里有必要指出,数据清洗非常重要。你不能做那种数据科学家真正喜欢与杂乱的数据做的工作。它需要清洗,贴标签,并被丰富,你才能信任它的输出值。

这里的问题是双重的:数据科学家们根本不喜欢做这种工作,正如前面所提到的,这类工作占用了大部分时间。我们问我们的受访者什么是他们的工作里最不愉快的一部分。

这是他们的回答:

请注意最后的两个图表是怎样反映出彼此的。科学家们做的最多事情是他们最喜欢的事情。去年,我们发现,受访者更倾向于做他们的工作中更具创造性的、有趣的部分,如预测分析和挖掘数据的模式。那是真正的价值所在。但同样,你根本不能做这项工作,除非数据被正确地标记。没有人喜欢标签数据。

数据科学家们有他们需要的吗?

有了世界上的数据科学家的短缺,我们想知道他们是否认为他们在工作中得到了正确的支持。毕竟,当你需要更多的数据科学家的时候,你会发现只有一个人在做各种工作。

大多数情况下,他们有他们所需要的工具。更广泛的说,这包括了工具、应用和程序。我们询问被调查者是否同意下列声明:我有我需要的、使我的工作有效的工具。

以下是他们的答案:

值得注意的是,只有14%的被调查者认为他们被他们的工具所阻碍。证据表明,虽然数据科学家的数量不够,但是他们的组织致力于给他们成功的最佳机会。这也不是一件坏事,我们想了解一些东西。我们问我们的受访对象,他们希望他们的雇主提供什么领域的支持,但是没有得到。答案并不惊奇:大约有四分之一的受访者希望有一个更大的团队。数据科学家短缺的数据已经预测到了这一点。但他们最希望的是来自他们的管理或管理团队更多的支持和方向(27%)。

数据科学技能需求TOP10

数据科学,作为一个领域,仍然是不断发展的。也就是说今天的最佳技能可能会被日后更好的技能取代。我们看了近4000个在LinkedIn上展示的数据科学工作,研究招聘者希望新员工具备哪些技能。我们把那些招聘信息通过CrowdFlower平台po出来并且标上我们的独特标记:哪些技能出现在哪些岗位上。

以下是数据科学家的技能需求TOP10:

数据科学的下一步是什么?

接下来,简单地说,就是机器学习。机器学习在某种程度上已经普及了,大多数的世界上最大的公司,科技界的大玩家像谷歌、微软、亚马逊、IBM和Facebook将他们的机器学习工具开源,产生了巨大的推动作用。

我们想知道我们的受访者是否会在未来的一年关注机器学习。我们问他们机器学习有多重要,用1-5来衡量。换句话说:真的很重要。超过一半的受访者指出机器学习对他们的公司和部门有意义,而在10个人中只有1个人标记这不是很重要。我们期望这个10%到明年会继续缩小。

结论

随着越来越多的组织采用的数据作为决策的主要驱动力,简单化、流程顺利的数据科学团队将是最重要的。但目前的现状很可能是不可持续的。一方面,我们看到数据科学家的缺乏,他们花太多时间清理和修改数据。这是一次可以更好的服务于预测分析和建立机器学习的做法,这并不是说清洁和标记数据是不重要的,当然。对不良数据进行分析是一种吞吐垃圾的场景。相反,想要得到数据的组织应该有目的地解决他们的团队现在的问题。组织应该和他们沟通,并找出什么占用了他们的时间。通过减少他们的团队花在清洁数据上的时间,他们将能够使他们的团队做数据科学家真正喜欢做的有价值的任务。

以上是关于2016数据科学报告:数据科学家依然受追捧的主要内容,如果未能解决你的问题,请参考以下文章

10大最受欢迎的机器学习和数据科学Python库

行业分析| 为什么在线自习室这么受年轻人的追捧?

每个数据科学人都应该知道的7种回归技术

解释机器学习模型的一些方法——在受监管的行业使用机器学习

2018年最受欢迎的五大机器学习工具和五大数据学习工具

“网络安全智能防御新技术”报告受欢迎