Spark HA高可用部署

Posted chengwentan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark HA高可用部署相关的知识,希望对你有一定的参考价值。

1.说明:

   Spark Standalone 集群是Master--Slaves架构的集群模式,和大部分的Master--Slaves 结构集群一样,存在着Master单点故障的问题。Spark提供了两种解决方案去解决这个单点故障的问题;

方案一:基于文件系统的单点恢复

      主要用于开发或测试环境,spark提供目录保存spark Application 和worker的注册信息,并将他们的恢复状态写入该目录中,这时,一旦Master发生故障,就可以通过重新启动Master进程(sbin/strart--master.sh),恢复已运行的spark Application 和 worker 的注册信息。(简单说就是需要自己亲自再去启动master)

方案二:基于zookeeper的 Standby Masters

    主要用于生产模式。其基本原理是通过zookeeper来选举一个Master,其他的Master处于Standby状态。将spark集群连接到同一个zookeeper实例并启动多个Master,利用zookeeper提供的选举和状态保存功能,可以使一个Master被选举成活着的master,而其他Master处于Standby状态。如果现任Master宕机,另一个Master会通过选举产生并恢复到旧的Master状态,然后恢复状态。整个恢复过程可能要1-2分钟。

2.基于zookeeper的spark HA 高可用集群部署

    该HA方案使用起来很简单,首先需要搭建一个zookeeper集群然后启动zookeeper集群,最后在不同节点上启动Master。具体配置如下:

   (1)vim spark-env.sh

               注释掉export SPARK_MASTER_HOST=hdp--node--01

    (2)在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS,内容如下:

           export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER  - Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181  -Dspark.deploy.zookeeper.dir=/spark"

             参数说明:

                1.spark.deploy.recoveryMode:恢复模式(Master 重新启动的模式):有三种:(1):zookeeper(2):FileSystem(3):none

                2.spark.deploy.zookeeper.url:zookeeper的server地址

                3.spark.deploy.zookeeper.dir:保存集群元数据信息的文件,目录。包括Worker,Driver和Application。

             注意:

               在普通模式下启动spark集群,只需要在主机上面执行start-all.sh就可以了。

                在高可用模式下启动spark集群,现需要在任意一台节点上启动start-all,然后在另外一台节点上单独启动master。命令:start-master.sh

以上是关于Spark HA高可用部署的主要内容,如果未能解决你的问题,请参考以下文章

第2节 Spark集群安装:1 - 3;第3节 Spark HA高可用部署:1 - 2

Flink JobManager高可用性(HA)

搭建HA高可用hadoop-2.3(部署配置HBase)

HA高可用集群部署

Spark搭建HA详解

Hadoop HA 高可用原理及部署