Linux - 因执行机光模块故障导致LSF job的idle_factor为0
Posted 王万林 Ben
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux - 因执行机光模块故障导致LSF job的idle_factor为0相关的知识,希望对你有一定的参考价值。
Linux - 因执行机光模块故障导致LSF job的idle_factor为0
问题描述
某台执行机hostA上的任务,任务无进展,对应的log无内容。使用bjobs -l
查看该job的idle_factor为0。
问题查看
登陆上去,
使用top -u $USER
按H查看用户的进程大多是S状态,一两个是D状态,占用的CPU都是0;
使用top
按H,按1,查看所有CPU情况,发现多数CPU core都是0%,有4个core是100%,都是IO wait。
查看网卡数据
$ watch "cat /proc/net/dev| column -t"
可以看到网卡的errs在迅速增加,并且errs与frame值相同。可以判断是网卡故障了。该物理机的网卡是光模块网卡,因此需安排相关人员进行更换。
问题解决
步骤:
1)先执行badmin hclose -C "Close this host for maintainace." hostA
关闭任务接收
2)待该机器存量任务全部结束后,进行网卡更换。
3)执行badmin hopen -C "Close this host for maintainace." hostA
打开任务接收
以上是关于Linux - 因执行机光模块故障导致LSF job的idle_factor为0的主要内容,如果未能解决你的问题,请参考以下文章
LSF - bjobs频繁查询导致集群性能问题的debug分析
*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter
*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter
Bootstrap 导出选项适用于 5,000 行,但因网络故障导致 16,000 行失败