25.集群异常故障分析——HOSTS

Posted 大勇若怯任卷舒

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了25.集群异常故障分析——HOSTS相关的知识,希望对你有一定的参考价值。

25.1 问题情况

  • Hadoop集群HDFS、YARN、Hive等服务出现异常告警

  • 重启集群异常告警任然存在大量告警

Cluster 1

HDFS
可用空间抑制...
    NameNode 运行状况抑制...
    HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-5-190)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-9-33)  日志文件
NameNode 连接抑制...
    Hive Metastore Server (ip-172-31-6-148)  日志文件
Hive Metastore Canary 抑制...
    Impala Daemon (ip-172-31-10-118)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-5-190)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-9-33)  日志文件
进程状态抑制...
NameNode (ip-172-31-6-148)  日志文件
安全模式状态抑制...
Server (ip-172-31-5-190)  日志文件
Quorum 成员资格抑制...

  • Zookeeper服务“Quorum 成员资格”告警

  • CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

  • 集群环境:

    • CDH5.12.0
    • 集群服务(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)
      1.还原现场配置,所有服务器hosts配置文件配置
127.0.0.1   ip-172-31-10-156.ap-southeast-1.compute.internal
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal
172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal
172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal
172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置为多出的异常配置。
在主机上ping自己的hostname显示
2.重启集群服务
CM出现如下大量告警

Cluster 1

HDFS
可用空间抑制...
    NameNode 运行状况抑制...
    HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-5-190)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-9-33)  日志文件
NameNode 连接抑制...
    Hive Metastore Server (ip-172-31-6-148)  日志文件
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-10-118)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-5-190)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-9-33)  日志文件
进程状态抑制...
NameNode (ip-172-31-6-148)  日志文件
安全模式状态抑制...
Server (ip-172-31-5-190)  日志文件
Quorum 成员资格抑制...
    ip-172-31-10-118
代理状态抑制...
    ip-172-31-5-190
代理状态抑制...
    ip-172-31-9-33
代理状态抑制...

Zookeeper与现场告警一致,且Zookeeper服务如下状态


在查看CM节点的日志出现如下异常“Connection refused”

Host列表监控状态

25.2 问题分析与解决

  • 集群在运行正常的情况下,所有节点的hosts文件被修改为127.0.0.1导致
  • 修改所有节点的hosts文件,将127.0.0.1行配置注释

大数据视频推荐:
CSDN
大数据语音推荐:
企业级大数据技术应用
大数据机器学习案例之推荐系统
自然语言处理
大数据基础
人工智能:深度学习入门到精通

以上是关于25.集群异常故障分析——HOSTS的主要内容,如果未能解决你的问题,请参考以下文章

一次 mongoDB 异常崩溃

ElasticSearch集群状态异常(RedYellow)原因分析

一次/etc/hosts权限错误导致的es集群错误

GaussDB CN服务异常实例分析

server2008故障转移群集异常

k8s 开船记:升级为豪华邮轮(高可用集群)与遇到奇怪故障(dns解析异常)