记一次nodemanager无法启动的情况

Posted zfbg

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记一次nodemanager无法启动的情况相关的知识,希望对你有一定的参考价值。

 早上看CDH发现有一个nodemanager挂掉

技术图片

然后查看对应的日志。技术图片 发现在日志里面并没有错误。,然然后发现服务器的磁盘满了,赶紧清理磁盘空间

技术图片

清理磁盘的时候发现主要是/tmp目录下面生成了很多 技术图片

类似这种的日志。

清理完空间之后 重启nodemanager。发现还是启不来

技术图片

到这里之后发现就停住了。。。。然后CDH页面就挂了nodemanager还是起不来。

继续查看

技术图片

发现8042端口注册不上。 然后继续追述上个日志 只要nodemanager启动就会recovering  application

所以 find 一下

find /*  -name *application application_1560341746674_1515*

 发现 /data/yarn/nm/usercache/root/appcache/* 目录下面很多 类似的文件,时间为头一天晚上7点过,继续看zabbix监控 发现

 技术图片

内存不足,技术图片

然后晚上九点过显示磁盘空间不足,解决办法 

rm  -fr /data/yarn/nm/usercache/*

删除cache之后 重启nodemanager正常

 并且删除

/var/lib/hadoop-yarn/yarn-nm-recovery/*

 

问题分析:由于这台机器上跑大任务,导致内存不足,内存不足 yarnnodemanager会一直报警写到  /tmp目录下,产生很多大文件,进而导致磁盘不足,

删除/tmp 下面的日志之后 启动node 但是一直起不来,yarn会去cache里面 recovering任务,但是这些任务已经过时导致一直起不来,解决办法就是删除这些cache

  详细信息可以参考

https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Yarn-NodeManager-fails-to-start-and-crashing-with-SIGBUS/m-p/67382#M3640

https://mapr.com/docs/61/AdministratorGuide/c-config-nodemanager-restart.html

以上是关于记一次nodemanager无法启动的情况的主要内容,如果未能解决你的问题,请参考以下文章

记一次rabbitMQ无法启动错误解决方案

记一次ORACLE无法启动登陆事故

记一次处理Apache无法启动的问题

记一次因硬盘故障导致的docker服务无法启动

记一次,关于思杰虚拟化XEN-API服务无法启动

记一次Tomcat无法正常启动的查错与解决之路