Python报RuntimeError NCCL Error 2 unhandled system error

Posted StriveZs

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python报RuntimeError NCCL Error 2 unhandled system error相关的知识,希望对你有一定的参考价值。


title: Python报RuntimeError NCCL Error 2 unhandled system error

categories:

  • Linux
  • Python
  • PyTorch

tags:

  • Linux
  • Python
  • PyTorch
  • 问题记录

Python报RuntimeError NCCL Error 2 unhandled system error

docker exec  -it --user root  -e NVIDIA_VISIBLE_DEVICES=0,1,2,3 remote /bin/bash

上面的命令,目前好像没用了。。。

github别人的方法,我通过自己创建了一个新的容器,然后在这基础上进行了配置,发现不会出现RuntimeError: NCCL Error 2: unhandled system error的问题了。

docker exec  -it --user root --gpus all --ipc=host  -e NVIDIA_VISIBLE_DEVICES=0,1,2,3 remote /bin/bash

需要重新创建一个容器!!!

然后重新配置环境就好了。

以上是关于Python报RuntimeError NCCL Error 2 unhandled system error的主要内容,如果未能解决你的问题,请参考以下文章

Python报RuntimeError NCCL Error 2 unhandled system error

NCCL分布式训练报错

解决RuntimeError: Distributed package doesn‘t have NCCL built in

解决RuntimeError: Distributed package doesn‘t have NCCL built in

完美解决windows系统raise RuntimeError(“Distributed package doesn‘t have NCCL “

return torch._C._broadcast_coalesced(tensors, devices, buffer_size)RuntimeError: NCCL Error 2:unhand