hadoop2.2.0配置了HA,今天发现它自动切换了?啥原因

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop2.2.0配置了HA,今天发现它自动切换了?啥原因相关的知识,希望对你有一定的参考价值。

参考技术A 可能是原先的NM或者RM超时挂掉了,这时候就会自动切换。

Hadoop HA 搭建发现新增namenode其他节点报Retrying connect to server 0.0.0.0:8032异常

背景

问题是在笔者配置集群高可用时出现,刚开始集群正常后来出现了新增的namenode服务起不起来后来修改该节点hostname替换为0.0.0.0后才得已解决,但是这个问题困扰了笔者在搭建ha开始到解决问题的日日夜夜,今天突然集群报错,造成集群瘫痪掉。在重启集群之后发下报如下错误:

报错

分析

面对这个报错只是知道是通信不上,按道理来说不应该啊因为大家知道0.0.0.0它表示本机中所有的IPV4地址。监听0.0.0.0的端口,就是监听本机中所有IP的端口。按道理来说不论如何都是能访问到的。但是在笔者去掉了本机hostname0.0.0.0映射关系后集群出现了报错。其他节点无法访问本机。该异常二次发生,咦,刚刚已经解决了,为何还会发生呢?此时,心情是崩溃的。

产生原因

因为Client会去找Cluster要集群资源,而Client和Cluster要通信,就要能够在及裙房为内互相识别。但现在Client提交的spark任务默认寻找的本机,无法向集群提交,hostname无法被Cluster识别。所以,产生原因主要是Client的hostname被设置成了localhost.localdomain。换句话说,就是在/etc/hosts文件中给hostname和localhost.localdomain配置了映射关系。这个时候出问题的兄弟赶紧看看是否如此。

操作

查看hosts,发现果然如此,

cat /etc/hosts

修改掉后重启集群,发现集群各个角色运行正常。因为粗心造成这个bug真的让人很无语。大家一定要以此为鉴做事细心。加油💪🏻

以上是关于hadoop2.2.0配置了HA,今天发现它自动切换了?啥原因的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop2.2.0集群的HA高可靠的最简单配置

Hadoop HA 深度解析

Hadoop NameNode HA模式的搭建以及原理

分享一份关于Hadoop2.2.0集群环境搭建文档

甘道夫Ubuntu14 server + Hadoop2.2.0环境下Sqoop1.99.3部署记录

hadoop2.2.0伪分布式搭建3--安装Hadoop