SLURM 是不是支持同时在一个节点上运行多个作业?

Posted

技术标签:

【中文标题】SLURM 是不是支持同时在一个节点上运行多个作业?【英文标题】:Does SLURM support running multiple jobs on one node at the same time?SLURM 是否支持同时在一个节点上运行多个作业? 【发布时间】:2018-10-07 04:17:45 【问题描述】:

我们的计算机集群运行 slurm 版本15.08.13 和 mpich 版本是3.2.1。我的问题是,Slurm 能否支持同时在一个节点上运行多个作业?我们的计算机集群每个节点有 16 个核心 cpu。我们想在一个节点上同时运行两个作业,每个作业使用 8 个内核。

我们发现,如果一个作业使用了一个节点的所有 cpu 核心,则节点的状态变为“已分配”。如果一个作业只使用了一个节点的部分cpu核心,则节点状态变为“混合”,但后续作业只能排队,作业状态为“待定”。

我们提交工作的顺序如下:

 srun -N1 -n8 testProgram

那么,Slurm 是否支持同时在一个节点上运行多个作业?谢谢。

【问题讨论】:

【参考方案1】:

是的,只要它配置了SelectType=select/cons_res,您的系统似乎并非如此。您可以通过scontrol show config | grep Select 查询。查看更多信息here

【讨论】:

以上是关于SLURM 是不是支持同时在一个节点上运行多个作业?的主要内容,如果未能解决你的问题,请参考以下文章

Slurm 作业不能为多个节点请求 GPU 资源

Slurm无法运行多个sbatch任务

如何在多个 GPU 节点上获取分配给 SLURM 作业的 GPU ID?

使用 SLURM 上的所有 CPU

Slurm 作业数组提交严重未充分利用可用资源

如何跨 Slurm 集群上的多个节点运行 MPI Python 脚本?错误:警告:无法在 2 个节点上运行 1 个进程,将 nnodes 设置为 1