SparkSpark一些面试题
Posted 九师兄
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SparkSpark一些面试题相关的知识,希望对你有一定的参考价值。
1.概述
1. spark 如何保证宕机迅速恢复?
适当增加 spark standby master
编写 shell 脚本,定期检测 master 状态,出现宕机后对 master 进行重启操作
2. Spark streaming 以及基本工作原理?
Spark streaming 是 spark core API 的一种扩展,可以用于进行大规模、高吞吐量、容错的实时数据流的处理。
它支持从多种数据源读取数据,比如 Kafka、 Flume、 Twitter 和 TCP Socket,并且能够使用算子比如 map、 reduce、 join 和 window 等来处理数据,处理后的数据可以保存到文件系统、数据库等存储中。
Spark streaming 内部的基本工作原理是:接受实时输入数据流,然后将数据拆分成batch,比如每收集一秒的数据封装成一个 batch,然后将每个 batch 交给 spark 的计算引擎进行处理,最后会生产处一个结果数据流,其中的数据也是一个一个的
batch 组成的。
3. spark 有哪些组件?
master
:管理集群和节点,不参与计算。 worker:计算节点,进程本身不参与计算,和 master 汇报。 Driver:运行程序的 main 方法,创建 spark context 对象。
以上是关于SparkSpark一些面试题的主要内容,如果未能解决你的问题,请参考以下文章
Python面试基础篇 - 50道经典面试题(附答案及多种解答)
Python面试基础篇 - 50道经典面试题(附答案及多种解答)