LSF - bjobs频繁查询导致集群性能问题的debug分析

Posted 王万林 Ben

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LSF - bjobs频繁查询导致集群性能问题的debug分析相关的知识,希望对你有一定的参考价值。

LSF - bjobs频繁查询导致集群性能问题的debug分析

问题描述

用户user00执行正常的bjobs很慢,有时候甚至失败。
用户user00将问题报告给LSF管理员。

问题分析

根据Diagnose query requests说明,LSF管理员查看对应的性能日志,发现有大量的bjobs查询来自于机器host01的用户user01。单用户查询,全局总计高达700次/分钟。

找用户user01核对,他正在跑synopsys sentaurus TCAD任务,会在GUI上提交LSF任务。用户将任务停掉后,频繁的查询随后消失。可以确认是user01跑的synopsys sentaurus TCAD导致的频繁查询操作。

资料查看

根据Sentaurus™ Device User Guide 搜关键字Job Polling interval所描述,工具在提交LSF任务后,会以一定时间间隔取查询任务。该间隔默认是1次/s,可以手工设置。有三个作用范围,分别是Global level,site level与user level,优先顺序是Global level < site level < user level

问题解决

由于本问题涉及的故障域其实是整个LSF集群,只是本问题刚好由某个工具触发了该故障。因此解决需要由两个方面入手:

  • 一是本case涉及的工具侧解决;
  • 二是LSF管理员需要设置查询频率限制,避免用户的不当查询导致集群性能问题。

解决详情:

  • 工具侧解决:按照上述资料查看的方法,在Global level的配置文件中,设置成60秒一次查询。并且写一篇指导,供用户参考写user level的配置!样例略;
  • LSF侧解决:根据Limit the number of batch queries所述,按照其介绍的方法设置即可。

总结

问题要找资料,总结以避免再次踩坑。

以上是关于LSF - bjobs频繁查询导致集群性能问题的debug分析的主要内容,如果未能解决你的问题,请参考以下文章

Linux - 因执行机光模块故障导致LSF job的idle_factor为0

LSF批量bkill任务

*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter

*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter

LSF - Cadence任务完毕了但显示RUN - daemon starter配置

LSF 中的混合 MPI/OpenMP