SLURM群集中的错误 - 检测到1个oom-kill事件：如何改进正在运行的作业

Question

我在SLURM集群中工作，我同时运行多个进程（在几个输入文件上），并使用相同的bash脚本。

在工作结束时，该过程被杀死，这是我获得的错误。

slurmstepd: error: Detected 1 oom-kill event(s) in step 1090990.batch cgroup.

我的猜测是内存存在一些问题。但我怎么能知道更多？我没有提供足够的记忆吗？或者作为我请求的用户比我访问的更多？

有什么建议吗？