LSF - bjobs频繁查询导致集群性能问题的debug分析
Posted 王万林 Ben
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LSF - bjobs频繁查询导致集群性能问题的debug分析相关的知识,希望对你有一定的参考价值。
LSF - bjobs频繁查询导致集群性能问题的debug分析
问题描述
用户user00执行正常的bjobs很慢,有时候甚至失败。
用户user00将问题报告给LSF管理员。
问题分析
根据Diagnose query requests说明,LSF管理员查看对应的性能日志,发现有大量的bjobs查询来自于机器host01的用户user01。单用户查询,全局总计高达700次/分钟。
找用户user01核对,他正在跑synopsys sentaurus TCAD任务,会在GUI上提交LSF任务。用户将任务停掉后,频繁的查询随后消失。可以确认是user01跑的synopsys sentaurus TCAD导致的频繁查询操作。
资料查看
根据Sentaurus™ Device User Guide 搜关键字Job Polling interval所描述,工具在提交LSF任务后,会以一定时间间隔取查询任务。该间隔默认是1次/s,可以手工设置。有三个作用范围,分别是Global level,site level与user level,优先顺序是Global level < site level < user level。
问题解决
由于本问题涉及的故障域其实是整个LSF集群,只是本问题刚好由某个工具触发了该故障。因此解决需要由两个方面入手:
- 一是本case涉及的工具侧解决;
- 二是LSF管理员需要设置查询频率限制,避免用户的不当查询导致集群性能问题。
解决详情:
- 工具侧解决:按照上述资料查看的方法,在Global level的配置文件中,设置成60秒一次查询。并且写一篇指导,供用户参考写user level的配置!样例略;
- LSF侧解决:根据Limit the number of batch queries所述,按照其介绍的方法设置即可。
总结
问题要找资料,总结以避免再次踩坑。
以上是关于LSF - bjobs频繁查询导致集群性能问题的debug分析的主要内容,如果未能解决你的问题,请参考以下文章
Linux - 因执行机光模块故障导致LSF job的idle_factor为0
*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter
*WARNING* LSF has been configured to use Linux control groups; however, the Cadence daemon starter