Linux - 因执行机光模块故障导致LSF job的idle_factor为0

Posted 王万林 Ben

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux - 因执行机光模块故障导致LSF job的idle_factor为0相关的知识,希望对你有一定的参考价值。

Linux - 因执行机光模块故障导致LSF job的idle_factor为0

问题描述

某台执行机hostA上的任务,任务无进展,对应的log无内容。使用bjobs -l查看该job的idle_factor为0。

问题查看

登陆上去,
使用top -u $USER按H查看用户的进程大多是S状态,一两个是D状态,占用的CPU都是0;
使用top按H,按1,查看所有CPU情况,发现多数CPU core都是0%,有4个core是100%,都是IO wait。

查看网卡数据

$ watch "cat /proc/net/dev| column -t"


可以看到网卡的errs在迅速增加,并且errs与frame值相同。可以判断是网卡故障了。该物理机的网卡是光模块网卡,因此需安排相关人员进行更换。

问题解决

步骤:
1)先执行badmin hclose -C "Close this host for maintainace." hostA关闭任务接收
2)待该机器存量任务全部结束后,进行网卡更换。
3)执行badmin hopen -C "Close this host for maintainace." hostA打开任务接收

以上是关于Linux - 因执行机光模块故障导致LSF job的idle_factor为0的主要内容,如果未能解决你的问题,请参考以下文章

LSF - bjobs频繁查询导致集群性能问题的debug分析

*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter

*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter

Bootstrap 导出选项适用于 5,000 行,但因网络故障导致 16,000 行失败

因代码配置错误导致负载均衡出问题:Microsoft 365 的 OneDriveSharePoint 故障

笔记:Spring Cloud Hystrix 服务容错保护