HDFS集群常见异常及排查步骤
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS集群常见异常及排查步骤相关的知识,希望对你有一定的参考价值。
1.问题一: 权限问题。比如hdfs需要写入目录的权限不足,本地目录工作异常,(权限问题),出现异常后大家不要看到一堆错误代码就心慌,不必害怕。hadoop目录下有个日志文件夹. 如果那个节点 出现问题就查看日志信息。 tail -F /XXX.log tail -F 可以动态监控文件内容的变化。
2.问题二: 文件属主不一致。比如文件是普通用户修改的或者文件没有相应的权限。root用户就无法实现读取或写入功能。 可以用文件所有者赋予权限: chown + username xxx.
3.问题三: 比如上传文件,报错。NameNode is safe mode. 这是因为集群处于安全模式下,安全模式下禁止对文件的任何操作,包括写and 删除等操作。这时候需要退出安全模式。
退出安全模式的命令: hdfs dfsadmin -safemode leave。 查看集群的状态信息 hdfs dfsadmin -report 。 集群刚启动DN会向NN汇报一些信息处于安全模式是正常的,如果集群启动后还是不退出就出现异常了。需要手动退出安全模式。 可以查看日志信息或重启集群。
4.问题四: 启动start-dfs.sh 后上传文件,发现上传失败。报异常错误。就尝试把tmp目录删除后重新格式化。 hadoop namenode -format
5.问题五: 用JPS (jps) 小写查看进程是否正常出现。如果出现后隔几秒就挂掉,说明进程异常。可以查看对应的日志。在logs目录下。
6.问题六: 如果进程不存在,就查看相关进程日志文件来分析错误。如果进程存在还是有问题,可能是进程间的集群协调有问题。可以通过查看集群的报告信息。
hdfs dfsadmin -report
7.问题七: 如果进程正常出现,但是执行文件上传下载还是有问题。就查看进程是否正常可用。 用指令hdfs dfsadmin -report 查看对应的进程是否可用的状态。可能是集群刚启动,进程还没有加入到集群的 原因。可用尝试重新上传或下载文件测试。
8问题八: 如果实在找不到原因就尝试把tmp目录删掉,重新格式化集群,再次启动集群。 前提是linux系统的环境正常。
欢迎补充哦
以上是关于HDFS集群常见异常及排查步骤的主要内容,如果未能解决你的问题,请参考以下文章