SparkSpark一些面试题

Posted 九师兄

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SparkSpark一些面试题相关的知识,希望对你有一定的参考价值。

1.概述

1. spark 如何保证宕机迅速恢复?

适当增加 spark standby master
编写 shell 脚本,定期检测 master 状态,出现宕机后对 master 进行重启操作

2. Spark streaming 以及基本工作原理?

Spark streaming 是 spark core API 的一种扩展,可以用于进行大规模、高吞吐量、容错的实时数据流的处理。
它支持从多种数据源读取数据,比如 Kafka、 Flume、 Twitter 和 TCP Socket,并且能够使用算子比如 map、 reduce、 join 和 window 等来处理数据,处理后的数据可以保存到文件系统、数据库等存储中。

Spark streaming 内部的基本工作原理是:接受实时输入数据流,然后将数据拆分成batch,比如每收集一秒的数据封装成一个 batch,然后将每个 batch 交给 spark 的计算引擎进行处理,最后会生产处一个结果数据流,其中的数据也是一个一个的
batch 组成的。

3. spark 有哪些组件?

  • master:管理集群和节点,不参与计算。 worker:计算节点,进程本身不参与计算,和 master 汇报。 Driver:运行程序的 main 方法,创建 spark context 对象。

以上是关于SparkSpark一些面试题的主要内容,如果未能解决你的问题,请参考以下文章

Python面试基础篇 - 50道经典面试题(附答案及多种解答)

Python面试基础篇 - 50道经典面试题(附答案及多种解答)

Python面试基础篇 - 50道经典面试题(附答案及多种解答)

SparkSpark的Standalone模式安装部署

Java初级面试题

Java初级面试题