HDFS集群常见异常及排查步骤

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS集群常见异常及排查步骤相关的知识,希望对你有一定的参考价值。

1.问题一: 权限问题。比如hdfs需要写入目录的权限不足,本地目录工作异常,(权限问题),出现异常后大家不要看到一堆错误代码就心慌,不必害怕。hadoop目录下有个日志文件夹. 如果那个节点 出现问题就查看日志信息。 tail  -F  /XXX.log    tail -F 可以动态监控文件内容的变化。

2.问题二: 文件属主不一致。比如文件是普通用户修改的或者文件没有相应的权限。root用户就无法实现读取或写入功能。 可以用文件所有者赋予权限:  chown  +  username xxx.

3.问题三: 比如上传文件,报错。NameNode is  safe mode.   这是因为集群处于安全模式下,安全模式下禁止对文件的任何操作,包括写and 删除等操作。这时候需要退出安全模式。

 退出安全模式的命令:  hdfs  dfsadmin  -safemode  leave。                    查看集群的状态信息   hdfs   dfsadmin   -report 。  集群刚启动DN会向NN汇报一些信息处于安全模式是正常的,如果集群启动后还是不退出就出现异常了。需要手动退出安全模式。  可以查看日志信息或重启集群。

4.问题四:  启动start-dfs.sh 后上传文件,发现上传失败。报异常错误。就尝试把tmp目录删除后重新格式化。  hadoop   namenode  -format 

5.问题五: 用JPS (jps) 小写查看进程是否正常出现。如果出现后隔几秒就挂掉,说明进程异常。可以查看对应的日志。在logs目录下。

6.问题六: 如果进程不存在,就查看相关进程日志文件来分析错误。如果进程存在还是有问题,可能是进程间的集群协调有问题。可以通过查看集群的报告信息。

   hdfs  dfsadmin   -report

7.问题七: 如果进程正常出现,但是执行文件上传下载还是有问题。就查看进程是否正常可用。  用指令hdfs  dfsadmin   -report  查看对应的进程是否可用的状态。可能是集群刚启动,进程还没有加入到集群的 原因。可用尝试重新上传或下载文件测试。

8问题八: 如果实在找不到原因就尝试把tmp目录删掉,重新格式化集群,再次启动集群。 前提是linux系统的环境正常。

 

欢迎补充哦

 

以上是关于HDFS集群常见异常及排查步骤的主要内容,如果未能解决你的问题,请参考以下文章

常见服务器故障类型及排查方法总结

flume常见异常汇总

排查软件异常的常见思路与方法

Kubernetes 集群状态异常排错

k8s 服务注册与发现DNS解析异常问题排查

k8s 服务注册与发现DNS解析异常问题排查