如何成为一名数据科学家

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何成为一名数据科学家相关的知识,希望对你有一定的参考价值。

技术技能:分析学
  1、教育——数据科学家受教育程度都很高,其中88%至少拥有硕士学位,46%有博士学位。虽然有一些名人特例,不过通常来说成为一名数据科学家需要扎实的教育背景,才能掌握所需的深度知识。最常见的研究领域包括数学与统计学(32%),其次是计算机科学(19%)以及工程学(16%)。
  2、SAS软件与/或R语言——对其中至少一种分析工具有深入的了解,一般对数据科学来说R语言更好一些。
  技术能力:计算机科学
  3、都是公司在招聘数据科学类角色时最常提出的语言要求。
  4、Hadoop平台——尽管不是总有这个需求,不过在很多情况下掌握它的人优势更大。熟悉Hive或Pig也是很有利的卖点。熟悉类似Amazon S3这样的云工具也会很有优势。
  5、SQL数据库/编程——尽管NoSQL和Hadoop已经成为了数据科学很大的组成部分之一,招聘者还是希望能够找到可以编写与执行SQL复杂查询的候选人。
  6、非结构化数据——数据科学家能够处理非结构化数据这一点非常重要,无论这些数据是来自社交媒体、视频源或者音频的。
  非技术类技能
  7、求知欲——毫无疑问最近到处都能看到这个词,尤其是在与数据科学家关联时。Frank Lo在几个月前的博文中描述了这个词的含义,并且讨论了其他必须的“软技能”。
  8、商业智慧——想要成为数据科学家,需要充分了解自己工作的行业,并且知道公司想要解决的商业问题是哪些。能够根据数据科学分辨出解决哪些问题对公司来说更为重要,并且能够找出利用数据的新办法,这些是非常关键的。
  9、通用技能——寻找优秀数据科学家的公司想要的是这样的人材:能够清楚顺畅地将自己的技术发现转化为非技术团队(比如市场部或者销售部)能够使用的内容。
参考技术A 要具备数据收集、分析、整合、运用的能力。 参考技术B 众多新的软件分析工具作为深入大数据洞察研究的重要助力,成为数据科学家所必须掌握的知识技能。
传统数据分析所用工具
1、Excel作为电子表格软件,适合简单统计(分组/求和等)需求,由于其方便好用,功能也能满足很多场景需要,所以实际成为研究人员最常用的软件工具。其缺点在于功能单一,且可处理数据规模小。这两年Excel在大数据方面(如地理可视化和网络关系分析)上也作出了一些增强,但应用能力有限。
2、SPSS(SPSS Statistics)和SAS作为商业统计软件,提供研究常用的经典统计分析(如回归、方差、因子、多变量分析等)处理。SPSS轻量、易于使用,但功能相对较少,适合常规基本统计分析。
3、SAS功能丰富而强大(包括绘图能力),且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。
数据存储和管理所用工具
Hadoop现在几乎已经等同于大数据。它是存储在计算机集群中的超大数据集的一个开源的分布式的基础架构。你可以随意增大或减小你的数据量而不用担心硬件故障。Hadoop提供了对任何种类的海量数据的存储、强大的处理能力和几乎无限的并行工作能力。
Hadoop并不适合数据初学者。要想充分发挥Hadoop的能力,你需要了解Java。学习Java可能耗时,但是Hadoop绝对值得你付出,因为大量的公司和技术都依赖于它甚至和它融为了一体。
数据清洗所用工具
在你进行数据挖掘之前,应该先对你的数据进行清洗。OpenRefine现在是一款用来专门清洗混乱数据的开源工具。从而使你能够轻松和快速的探索有一定程度非结构化的大数据集。
数据挖掘所用工具
数据挖掘作为大数据应用的重要领域,在传统统计分析基础上,更强调提供机器学习的方法,关注高维空间下复杂数据关联关系和推演能力。代表是SPSS Modeler,SPSS Modeler的统计功能相对有限,主要是提供面向商业挖掘的机器学习算法(决策树、神经元网络、分类、聚类和预测等)的实现。同时,其数据预处理和结果辅助分析方面也相当方便,这一点尤其适合商业环境下的快速挖掘。不过就处理能力而言,实际感觉难以应对亿级以上的数据规模。
大数据常用的编程语言
1、R语言是用来进行统计分析和绘图的一种语言。如果上述的数据挖掘和统计软件无法满足你的需求的话,那么R语言一定会有所帮助。实际上如果你要成为一个数据科学家,了解R语言是一项必备技能。
2、Python语言——最大的优势是在文本处理以及大数据量处理场景,且易于开发。在相关分析领域,Python代替R的势头越来越明显。

以上是关于如何成为一名数据科学家的主要内容,如果未能解决你的问题,请参考以下文章

几个月就能化身为数据科学家?

如何成为一名大数据工程师?

我是如何从物理学转行到数据科学领域

想从事数据科学相关岗位,这些数学基础“必备”

大数据科学相关岗位,需要具备哪些数学基础?

如何成为一名顶级战斗力的数据分析师