hadoop记录一次HDFS集群自动转移故障问题排查和解决方案

Posted 2021-11-23 kiraraLou

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了hadoop记录一次HDFS集群自动转移故障问题排查和解决方案相关的知识，希望对你有一定的参考价值。

一、问题情况：

今天早上收到报警，HDFS namenode 服务异常，发生了自动故障迁移。

二、报错内容：

2021-10-26 07:13:56,310 INFO org.apache.hadoop.hdfs.server.namenode.FileJournalManager: Fina      lizing edits file /home/hadoop/dfs/nn/current/edits_inprogress_0000000000824809456 -> /home/      hadoop/dfs/nn/current/edits_0000000000824809456-0000000000824809550
2021-10-26 07:13:56,310 INFO org.apache.hadoop.hdfs.server.namenode.FSEditLog: Starting log       segment at 824809551
2021-10-26 07:16:30,946 INFO org.apache.hadoop.hdfs.server.blockmanagement.CacheReplicationM      onitor: Rescanning after 162713 milliseconds
2021-10-26 07:16:30,947 WARN org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager: Wa      ited 154637 ms (timeout=20000 ms) for a response for startLogSegment(824809551). No response      s yet.
2021-10-26 07:16:30,947 FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: start      ing log segment 824809551 failed for required journal (JournalAndStream(mgr=QJM to [10.11.2.      140:8485, 10.11.2.141:8485, 10.11.2.142:8485], stream=null))
java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond.
    at org.apache.hadoop.hdfs.qjournal.client.AsyncLoggerSet.waitForWriteQuorum(AsyncLoggerS      et.java:137)
    at org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager.startLogSegment(QuorumJou      rnalManager.java:403)
    at org.apache.hadoop.hdfs.server.namenode.JournalSet$JournalAndStream.startLogSegment(Jo      urnalSet.java:107)                                                                          
    at org.apache.hadoop.hdfs.server.namenode.JournalSet$3.apply(JournalSet.java:222)