比读文档更易上手的Spark入门教程来啦！

Posted 2022-01-02 turingbooks

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了比读文档更易上手的Spark入门教程来啦！相关的知识，希望对你有一定的参考价值。

Spark 开创至今，已经走过了近 12 年。12 年间，时代的脚步不断前进，我们看到互联网不断发展，各种初创公司崭露头角，在公司日常业务中需要处理的数据量也飞速增长。数据中心也从云下逐渐迁往云上，从单一云走向多云，批处理和流计算逐渐融合，数据仓库逐渐走向湖仓一体，集群资源调度也越来越轻量化。

现在，Spark 即将发布 3.2 版本。从问世至今，Spark 不断增强，在大数据蓬勃发展的浪潮中占据越来越重要的位置。Spark 3.0 的发布标志着 Spark 进入了一个全新的时代。

Spark 发展至今，有很多人都与 Spark 产生了或多或少的交集，王道远老师也是其中一位。本文选自《Spark快速大数据分析（第2版）》的译者序，让我们跟随王老师的脚步，看看他与 Spark 的那些事。

我与Spark的那些事

8 年前，刚刚从大学毕业的我，有幸误打误撞地走进了大数据这个领域，第一次接触到各种各样的大数据软件。业界的这些大数据软件基本上是开源的，在大数据这个领域似乎商业软件完全无法望其项背。2014 年，我开始参与 Spark 社区的开发，当时 1.0 版本尚未发布，我对大数据也没有特别深入的认知，当时纯粹以自己掌握的数据库和编译原理的皮毛知识参与其中。在这个过程中，我看到了很多牛人的代码，也结识了很多社区大佬，渐渐对 Spark 有了一些了解。后来，我加入阿里云。在大量的客户支持工作中，我才逐渐对整个大数据生态有了一定的了解，也见证了 Spark 被越来越多的客户使用，替换原有的技术栈。

毫无疑问，Spark 在开源软件中是比较成功的，活跃的开源社区为 Spark 贡献了非常多的重要功能和改进，日益好用的 Spark 也正是开源社区给所有人的回馈。在开源世界里，遇到问题谁都可以自己寻找解法，也可以和其他人一起交流、分享。越是流行的软件，发展得越快，也就越能及时跟上这个日新月异的时代。也许有一天，Spark 也会式微，但开源精神一定会继续发扬光大。对个人而言，开源是一种有趣的经历。有条件的话，你也不妨为开源贡献自己的一份力。

我与《Spark快速大数据分析》的不解之缘

机缘巧合之下，我在 2015 年翻译出版了《Spark快速大数据分析》。从此，我好像和翻译结下了一段缘分。之后我又翻译了《Spark快速大数据分析（第2版）》，虽然译文不是在社区免费公开的，但我觉得这也是对开源社区的一种贡献。

作者：[美] 朱尔斯·S. 达米吉、[美] 布鲁克·韦尼希、

[印] 泰瑟加塔·达斯、[美] 丹尼·李

译者：王道远

然而，虽然开源技术没有国界，但世界很大，人类终究说着不同的语言（哪怕代码世界都有那么多种不同的语言，甚至世界上最好的语言都有很多种），偏偏我们搞技术的，即使英文尚可，读起英文书也总是难以如母语般一目十行，由专人花时间把技术书翻译成母语的工作也还算有些价值。在翻译《Spark快速大数据分析（第2版）》这个过程中，我也一直保持着对原书的敬畏，用我有限的语文水平以及我对 Spark 的认识，尽量用平实而避免歧义的文字还原出原书的意思。这本书的翻译从去年 10 月持续到今年 3 月。

第 2 版相比第 1 版多了不少篇幅，涉及的内容也更为丰富，并且兼顾旧版本保留了基本原理与大数据发展的新趋势。相信新老用户都可以从这本书中得到新的收获，可以与 Spark 交个朋友。

编辑推荐

Databricks 工程师诚意之作，比官方文档更实用的 Spark 入门教程
前一版印刷 32 次，销量超 6 万册
新版全面更新，覆盖 Spark 3.0 新特性

本书简介

本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据 API，利用 Spark SQL 进行交互式查询，掌握 Spark 应用的优化之道，用 Spark 和 Delta Lake 等开源工具构建可靠的数据湖，并用 MLlib 库实现机器学习流水线。随着 Spark 从 2.x 版本升级到 3.0 版本，本书第 2 版做了全面的更新，以体现 Spark 生态系统在机器学习、流处理技术等方面的发展，另新增一章详解 Spark 3.0 引入的新特性。

本书特色

毋庸置疑，数据已经成为现代化企业的重要资产，大数据分析技术则是企业挖掘数据价值的核心利器。一直以来，Spark 就是大数据分析领域的佼佼者，也已经成为一站式大数据分析引擎的事实标准。

本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark，并了解如何利用它适应这个属于大数据和机器学习的新时代。第 2 版在第 1 版的基础上做了大量更新，涵盖 Spark 3.0 的新特性，并着重展示如何利用机器学习算法执行大数据分析。

学习使用 Python、Java、Scala 的结构化数据 API
理解 Spark SQL 引擎的原理
掌握 Spark 应用的优化技巧
了解如何读写数据源：JSON、Parquet、CSV、Avro、ORC 等
使用 Structured Streaming 分析批式数据和流式数据
使用 Spark 和 Delta Lake 构建湖仓一体的系统
使用 MLlib 开发机器学习流水线

作译者介绍

作者

朱尔斯·S. 达米吉（Jules S. Damji）是 Databricks 的高级开发人员，也是 MLflow 的贡献者。

布鲁克·韦尼希（Brooke Wenig）是Databricks的机器学习专家。

泰瑟加塔·达斯（Tathagata Das）是Databricks的软件工程师，也是Apache Spark PMC成员。

丹尼·李（Denny Lee）是Databricks的软件工程师。

译者

王道远

目前就职于阿里云开源大数据平台数据湖存储团队，花名“健身”，主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验，熟悉 Spark 源码，从 2014 年开始参与 Spark 项目，曾为 Spark 贡献大量修复和新特性，也曾作为主要贡献者参与了 OAP 和 SparkCube 等 Spark 生态开源项目的开发。

业内佳评

“这本书提供了一种系统学习Spark的方法，并介绍了该项目的发展近况，是Spark开发人员上手大数据的好途径。”

——Reynold Xin Databricks联合创始人、Apache Spark PMC成员

“对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说，这本书应成为常备指南。”

——Ben Lorica Databricks数据科学家、Spark + AI峰会项目主席

“在信息化时代，数据已经成为现代化企业的重要资产，大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来，随着开源技术理念的蓬勃发展，开源大数据技术体系已经成为行业的主流选择，Apache Spark就是其中的优秀代表。凭借优秀的架构设计，Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据，加速各行各业实现数字化转型。”

——王峰，花名“莫问” 阿里云开源大数据平台负责人

“转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目，Spark并未逐渐凋零，而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时，也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解，也希望Spark在未来的10年能持续进化，在大数据领域擦出更多的‘火花’。”

——邵赛赛腾讯专家工程师，数据湖团队负责人

“这是一个数据驱动创新的时代，一个数据改变世界的时代，一个数据成为生产资源和执政资源的时代。Apache Spark是数据分析的事实标准。这本书既是学习Spark的入门指南，也是大数据行业的敲门砖。”

——李潇 Databricks Spark研发部主管，Apache Spark PMC成员