Hadoop HA自动故障转移&频繁启动问题解决

Posted 2022-11-04 GaryLea

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop HA自动故障转移&频繁启动问题解决相关的知识，希望对你有一定的参考价值。

背景

之前博客中有讲怎么配置hadoop的HA，在工作中，我因要进行数据治理组件的探究，所以需要部署一个测试集群来测试一下数据治理相关组件的集成，可能是因为测试集群比生产环境的配置要低，所以遇到了之前没有遇到的问题，比如HA配置后，NN一直频繁切换, 这个现象就是hadoop的脑裂

自动故障转移配置

vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml
<!--  配置自动故障转移 -->
<property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
</property>
<property>
    <name>ha.zookeeper.quorum</name>
    <value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>
</property>

频繁切换问题解决

首先尝试关掉一个NN，然后等NN稳定后再启动另一台NN
如果不行，进行配置文件修改

vim $HADOOP_HOME/etc/hadoop/core-site.xml
<!-- 调整ZKFC自动检测时长，防止频繁切换nn -->
<property>
    <name>ha.health-monitor.rpc-timeout.ms</name>
    <value>120000</value>
</property>

如果还是不行，有一个强制的方法

kill -9 其中一台namenode，然后等一会再重启那台namenode

频繁切换的原因

可能是集群配置较低，使用默认配置时，ZKFC的健康检查超时时长不足以支撑NN的正常启动，此时NN被ZKFC认为没有正常启动，因此会采用自动故障转移来启动另外一台NN，从而引起自动切换active NN

总结

开发中所有东西都不是一成不变，需要我们仔细探究原因

以上是关于Hadoop HA自动故障转移&频繁启动问题解决的主要内容，如果未能解决你的问题，请参考以下文章