SLURM群集中的错误 - 检测到1个oom-kill事件:如何改进正在运行的作业

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SLURM群集中的错误 - 检测到1个oom-kill事件:如何改进正在运行的作业相关的知识,希望对你有一定的参考价值。

我在SLURM集群中工作,我同时运行多个进程(在几个输入文件上),并使用相同的bash脚本。

在工作结束时,该过程被杀死,这是我获得的错误。

slurmstepd: error: Detected 1 oom-kill event(s) in step 1090990.batch cgroup.

我的猜测是内存存在一些问题。但我怎么能知道更多?我没有提供足够的记忆吗?或者作为我请求的用户比我访问的更多?

有什么建议吗?

答案

OOM代表“Out of Memory”。当Linux内存不足时,它会“破坏”一个进程来保持关键进程的运行。看起来slurmstepd发现你的进程被杀死了。 Oracle有这种机制的a nice explanation

如果您请求的内存多于允许的内存,则该进程将不会分配给节点,并且计算也不会启动。看起来你需要更多的内存。

以上是关于SLURM群集中的错误 - 检测到1个oom-kill事件:如何改进正在运行的作业的主要内容,如果未能解决你的问题,请参考以下文章

解决 SLURM “sbatch:错误:批处理作业提交失败:请求的节点配置不可用”错误

记录安装slurm错误

如何从 SLURM 中的节点列表向任何 [子集] 节点提交作业?

WSFC2016 跨站点运行状况检测

HPC 集群:选择 SLURM sbatch 中的 CPU 和线程数

Slurm 作业数组提交严重未充分利用可用资源