IBM Spectrum LSF-访问不同HPC节点上的多个GPU

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了IBM Spectrum LSF-访问不同HPC节点上的多个GPU相关的知识,希望对你有一定的参考价值。

我正在尝试使用多个GPU:总共8个GPU,每个节点4个GPU设备,总共:2个节点。

到目前为止,我收到“内存不足错误”:

我检查了我的tensorflow代码的部分输出,仅使用了4个GPU设备。

我的tensorflow代码是具有修改后的代码的教程,该代码使用具有大型输入文件的tensorflow函数(在具有2个GPU的HPC交互式环境中,使用较小的文件,效果很好)。张量流代码自动找到GPU并将任务分散到它们之间。

我如何获得我的工作代码或python程序代码来查找和使用所有8个GPU(来自2个节点)?

HPC员工对此无能为力,并提到需要复杂的代码。最近两天,我一直在寻找好的教程,但找不到任何教程。

欢迎任何有用的建议。这是我当前的脚本:

#!/bin/bash
#BSUB -q gpu
#BSUB -J gpus_8
#BSUB -P acc_hpc
#BSUB -R v100
#BSUB -n 2
#BSUB -R "affinity[core(30)]"
#BSUB -R rusage[mem=326000,ngpus_excl_p=4]
#BSUB -W 05:00
#BSUB -o %J.stdout
#BSUB -eo %J.stderr
#BSUB -L /bin/bash

WRKDIR=/scratch/user
ml anaconda3
source activate environ1

python3 gpu_job.py
答案

改为使用#BSUB -R rusage[mem=326000,ngpus_excl_p=8]。资源需求通常是针对每个作业的。另请参阅https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_resource_sharing/use_gpu_res_reqs.html

以上是关于IBM Spectrum LSF-访问不同HPC节点上的多个GPU的主要内容,如果未能解决你的问题,请参考以下文章

IBM Platform LSF--esub变量参数含义

LSF - LSF会使用什么cgroup子系统?

简单的资源预留修正流程图

LSF - bsub提交的任务关掉了,bjob查看job还在RUN?

LSF - job运行达到时间限制被kill

在 LSF 命令中返回管道命令的退出代码