IBM Spectrum LSF-访问不同HPC节点上的多个GPU
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了IBM Spectrum LSF-访问不同HPC节点上的多个GPU相关的知识,希望对你有一定的参考价值。
我正在尝试使用多个GPU:总共8个GPU,每个节点4个GPU设备,总共:2个节点。
到目前为止,我收到“内存不足错误”:
我检查了我的tensorflow代码的部分输出,仅使用了4个GPU设备。
我的tensorflow代码是具有修改后的代码的教程,该代码使用具有大型输入文件的tensorflow函数(在具有2个GPU的HPC交互式环境中,使用较小的文件,效果很好)。张量流代码自动找到GPU并将任务分散到它们之间。
我如何获得我的工作代码或python程序代码来查找和使用所有8个GPU(来自2个节点)?
HPC员工对此无能为力,并提到需要复杂的代码。最近两天,我一直在寻找好的教程,但找不到任何教程。
欢迎任何有用的建议。这是我当前的脚本:
#!/bin/bash
#BSUB -q gpu
#BSUB -J gpus_8
#BSUB -P acc_hpc
#BSUB -R v100
#BSUB -n 2
#BSUB -R "affinity[core(30)]"
#BSUB -R rusage[mem=326000,ngpus_excl_p=4]
#BSUB -W 05:00
#BSUB -o %J.stdout
#BSUB -eo %J.stderr
#BSUB -L /bin/bash
WRKDIR=/scratch/user
ml anaconda3
source activate environ1
python3 gpu_job.py
答案
改为使用#BSUB -R rusage[mem=326000,ngpus_excl_p=8]
。资源需求通常是针对每个作业的。另请参阅https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_resource_sharing/use_gpu_res_reqs.html。
以上是关于IBM Spectrum LSF-访问不同HPC节点上的多个GPU的主要内容,如果未能解决你的问题,请参考以下文章