有啥关于 Spark 的书推荐?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有啥关于 Spark 的书推荐?相关的知识,希望对你有一定的参考价值。

《大数据Spark企业级实战》本书共包括14章,每章的主要内容如下。


第一章回答了为什么大型数据处理平台都要选择SPARK

。为什么spark如此之快?星火的理论基础是什么?spark如何使用专门的技术堆栈来解决大规模数据处理的需要?

第二章回答了如何从头构建Hadoop集群的问题。

如何构建基于Hadoop集群的星火集群?如何测试火星的质量?


第三章是如何在一个集成开发环境中开发和运行星火计划。

如何开发和测试IDA中的spark代码?

在这4章中,RDD、RDD和spark集成战斗用例API的作用类型将用于实际的战斗RDD。

第四章分析了星火独立模式的设计与实现、星火集群模型和星火客户端模式。

第五章首先介绍了spark core,

然后通过对源代码的分析,分析了spark的源代码和源代码,仔细分析了spark工作的整个生命周期,最后分享了spark性能优化的内容。

这说明了一步一步的火花的特点是使用了大约30个实际案例,并分析了spark GraphX的源代码。

第八章,

在星火SQL实践编程实践的基础上,详细介绍了星火SQL的内容。

第九章讲了从快速启动机器学习前9章,MLlib的分析框架,基于线性回归、

聚类,并解决协同过滤算法,源代码分析和案例启示MLlib一步一步,最后由基本MLlib意味着静态和朴素贝叶斯算法,决策树分析和实践,进一步提高的主要引发机器学习技巧。

第十章详细描述了分布式存储文件系统、

超轻粒子和超轻粒子的设计、实现、部署和使用。

第十一章主要介绍了火花流的原理、源代码和实际情况。

第十二章介绍了spark

多语种编程的特点,并通过实例介绍了spark多语言编程。最后,将一个综合的例子应用到spark多语言编程的实践中。

第十三章首先介绍了

R语言的基本介绍和实践操作,介绍了使用sparkr和编码的火花,并帮助您快速使用R语言和数据处理能力。

在第十四章中,

详细介绍了电火花放电的常见问题及其调谐方法。首先介绍了14个问题,并对它们的解决方案进行了优化。然后,从内存优化、RDD分区、对象和操作性能优化等方面对常见性能优化问题进行了阐述,最后阐述了火花的最佳实践。


附录从spark的角度解释了Scala,并详细解释了Scala函数编程和面向对象编程。

参考技术A

我来推荐推荐吧~


今天的市场上有那么多的 Spark 书。

本文梳理比较值得关注的 Spark ,图书市场上,重要的是要注意,这些书都写基于 Spark 0.9或1.0,一定距离最新版本的 Spark ,这是因为图书出版周期长。技术资料,完成(书籍内容已经完成,和修改后的)最后的距离)也需要3个月上市,这意味着,这本书的内容可能不是最新的,三个月后,可能已经发布了N版本,特别是对于 Spark 源代码分析书,将会变得更糟。

目前,Spark books主要是由做平台的人编写的,

这些人非常了解Spark原理,所以这些书是由内部原理来分析的。如果您想要找到一本关于spark的书,它应用了实际的战斗类型,特别是程序开发、程序优化和案例分析,我很抱歉,但它仍然是空白的。《 Spark 大数据处理技术》以 Spark 版0.9为基础,是对Spark和Spark生态系统相关技术书籍的全面介绍,是国内第一个深入介绍Spark原理和技术书籍的架构。

主要内容包括Spark基本功能介绍和内部重要模块分析,包括部署模式、调度框架、存储管理和应用监控;此外,还详细介绍了生态系统和其他软件模块的Spark,包括Shark和Spark SQL SQL处理引擎、流处理引擎Spark流图、图形计算框架和Tachyon分布式内存文件系统。“ Spark 大数据处理技术。

最后

从 Spark 核心框架的概念和原理和生态系统,和火花的应用现状做了介绍和发展在未来,针对大型数据从业人员学习和火花爱好者提供一个平台,更先进的研究。

参考技术B

学编程的人不要以为一辈子只能打代码,你们有很多我们一辈子比不上的优势


    基本功

我的许多下属被我的手下调到管理部门,他们中的一些人开始沉默寡言,沉默寡言,没有人觉得他们会管理,但姐把这类人培养成严谨甚至冷血的干将工作忙没多少时间,之前没有多少编程基础,数学仅仅停留在大学的概率论,英语不好看英文版会疯,所以这份书单很适合时间不多,数学没基础,看不懂英文的朋友,这本书就是《spark快速大数据分析》。200页左右,很适合初学者。


    提升

有一个笑话是没有详细说明的,因为这本书不是一本关于火花的入门书,是一本应用书,很多情况需要跟踪,姐当时零基础想学数据分析,是逆推回去学的,从复习高数概率论到机器学习入门,再慢慢熟悉spark然后深入研究机器学习,都是利用下班空闲时间做的。这本书就是《spark高级数据分析》

    官方版

一定要阅读官方文件。官方文件很好,比大多数都好。spark更新太快了,市面上书都是基于spark1.2以前的版本,而最新的1.4和以前的版本已经有了相当大的改变。尤其是dataframe,mllib,改动非常大。

我的同事写了一本书,但他推荐我去看官方文件。由于spark的更新速度非常快,所以需要半年的时间才能完成写作,而且很多内容需要更新。

请推荐一本关于使用 boost.thread 或 C++11 进行多线程的有价值的书

【中文标题】请推荐一本关于使用 boost.thread 或 C++11 进行多线程的有价值的书【英文标题】:Please advise a worthy book on multithreading with boost.thread or C++11 【发布时间】:2011-11-15 09:39:29 【问题描述】:

您认为哪本书值得购买?我通常熟悉多线程概念、OpenMP、基本的 WinAPI 线程。我现在想学习有效地使用新的 std::thread 或 boost.thread - 我不熟悉原子、条件变量等。

【问题讨论】:

我怀疑有很多书描述了 C++11,因为它在今年早些时候才成为标准。虽然可能有一些描述提案。 @Joachim Pileborg:我知道,但草稿在这里已经很久了,所以如果有可用的书籍,我不会感到惊讶。但是找不到,所以您可能是对的。 我建议也查看 Posix 线程。至少要了解常见的概念以及与 Windows 线程的区别。 C++ Concurrency in Action 将于今年年底推出。作者 Anthony Williams 是 *** 的同胞、just::thread 库的作者和 Boost.Thread 的维护者。 William 的书已经漂亮了,因为它是 Manning 早期访问版本的一部分。我大约一年前在网上购买了它,从那以后就没有改变过。 【参考方案1】:

我不知道这本书,但标题引起了我的注意:C++ Concurrency in Action。也许它包含您需要的内容,只需查看预览即可。它有一些关于 C++11 的信息

【讨论】:

以上是关于有啥关于 Spark 的书推荐?的主要内容,如果未能解决你的问题,请参考以下文章

从python基础到爬虫的书有啥值得推荐

从python基础到爬虫的书有啥值得推荐?

有啥好的java书可以推荐的?

推荐一本《神经网络》方面的书 Delphi C++

我想推荐一本关于 Eclipse 的富客户端平台 (RCP) 的书

有哪些关于 R 语言的书值得推荐