Hadoop HA自动故障转移&频繁启动问题解决
Posted GaryLea
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop HA自动故障转移&频繁启动问题解决相关的知识,希望对你有一定的参考价值。
背景
之前博客中有讲怎么配置hadoop的HA,在工作中,我因要进行数据治理组件的探究,所以需要部署一个测试集群来测试一下数据治理相关组件的集成,可能是因为测试集群比生产环境的配置要低,所以遇到了之前没有遇到的问题,比如HA配置后,NN一直频繁切换, 这个现象就是hadoop的脑裂
自动故障转移配置
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml
<!-- 配置自动故障转移 -->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>
频繁切换问题解决
首先尝试关掉一个NN,然后等NN稳定后再启动另一台NN
如果不行,进行配置文件修改
vim $HADOOP_HOME/etc/hadoop/core-site.xml
<!-- 调整ZKFC自动检测时长,防止频繁切换nn -->
<property>
<name>ha.health-monitor.rpc-timeout.ms</name>
<value>120000</value>
</property>
如果还是不行,有一个强制的方法
kill -9 其中一台namenode,然后等一会再重启那台namenode
频繁切换的原因
可能是集群配置较低,使用默认配置时,ZKFC的健康检查超时时长不足以支撑NN的正常启动,此时NN被ZKFC认为没有正常启动,因此会采用自动故障转移来启动另外一台NN,从而引起自动切换active NN
总结
开发中所有东西都不是一成不变,需要我们仔细探究原因
以上是关于Hadoop HA自动故障转移&频繁启动问题解决的主要内容,如果未能解决你的问题,请参考以下文章
Hadoop HA集群 NameNode 无法自动故障转移(切换active)