Hadoop HA自动故障转移&频繁启动问题解决

Posted GaryLea

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop HA自动故障转移&频繁启动问题解决相关的知识,希望对你有一定的参考价值。

背景

之前博客中有讲怎么配置hadoop的HA,在工作中,我因要进行数据治理组件的探究,所以需要部署一个测试集群来测试一下数据治理相关组件的集成,可能是因为测试集群比生产环境的配置要低,所以遇到了之前没有遇到的问题,比如HA配置后,NN一直频繁切换, 这个现象就是hadoop的脑裂

自动故障转移配置

vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml
<!--  配置自动故障转移 -->
<property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
</property>
<property>
    <name>ha.zookeeper.quorum</name>
    <value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>

频繁切换问题解决

首先尝试关掉一个NN,然后等NN稳定后再启动另一台NN
如果不行,进行配置文件修改

vim $HADOOP_HOME/etc/hadoop/core-site.xml
<!-- 调整ZKFC自动检测时长,防止频繁切换nn -->
<property>
    <name>ha.health-monitor.rpc-timeout.ms</name>
    <value>120000</value>
</property>

如果还是不行,有一个强制的方法

kill -9 其中一台namenode,然后等一会再重启那台namenode

频繁切换的原因

可能是集群配置较低,使用默认配置时,ZKFC的健康检查超时时长不足以支撑NN的正常启动,此时NN被ZKFC认为没有正常启动,因此会采用自动故障转移来启动另外一台NN,从而引起自动切换active NN

总结

开发中所有东西都不是一成不变,需要我们仔细探究原因

以上是关于Hadoop HA自动故障转移&频繁启动问题解决的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop HA自动故障转移&频繁启动问题解决

Hadoop HA集群 NameNode 无法自动故障转移(切换active)

Hadoop HA高可用

HDFS HA之手动高可用故障转移配置自动高可用故障转移配置配置YARN-HA集群

Hadoop高可用HA 开发常用Linux命令

Hadoop高可用HA 开发常用Linux命令