LSF 作业管理系统

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LSF 作业管理系统相关的知识,希望对你有一定的参考价值。

参考技术A 在 上一篇 中我们简要介绍了 PBS 作业管理系统,下面我们将介绍 LSF 作业管理系统。

LSF (Load Sharing Facility)是一个被广泛使用的作业管理系统,具有高吞吐、配置灵活的优点。通过 LSF 集中监控和调度,可以充分利用计算机的CPU、内存、磁盘等资源。

可以通过以下三种方法使用 bsub 来提交作业:

可以直接在 bsub 的命令行中输入完整的参数来提交一个作业,比如:

其中所用的参数说明如下:

这种方式比较适合提交简单的作业,更复杂的作业控制需要编写作业脚本。

LSF 作业脚本本质上也是一个 shell 脚本,在其中可以用 #BSUB开头的行来指明 bsub作业参数。下面是一个 LSF 作业脚本示例:

其中各参数说明如下:

提交作业脚本,使用下面的命令:

在终端中输入 bsub 并回车后会进入 bsub 交互环境,在其中可输入作业参数和执行作业程序。在 bsub 交互环境下可以一次提交多个参数相同的作业,例如:

使用 Ctrl+D 可退出 bsub 交互环境。

可以用 bjobs 命令查看用户正在运行中的作业:

使用 -l参数和某个作业的 JOBID,可以查看该作业的详细信息:

使用 bkill 命令中止某个作业:

以上简要介绍了 LSF 作业管理系统,在 下一篇 中我们将介绍 SLURM 资源管理系统。

LSF - job运行达到时间限制被kill

LSF - job运行达到时间限制被kill

原因

在LSF中可设置运行时间限制,job的流逝时间或cpu time。如果超出上限将被kill。

设置

请参考链接。

参考资料

https://www.ibm.com/support/pages/termrunlimit-job-killed-after-reaching-lsf-run-time-limit-exited-exit-code-140

以上是关于LSF 作业管理系统的主要内容,如果未能解决你的问题,请参考以下文章

LSF - LSF会使用什么cgroup子系统?

LSF - 基础 - 管理

关于如何编写一个好的 python 包装器 LSF 的建议

SGE作业调度系统的简单理解

IBM Platform LSF--esub变量参数含义

LSF 中的混合 MPI/OpenMP