Python报RuntimeError NCCL Error 2 unhandled system error
Posted StriveZs
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python报RuntimeError NCCL Error 2 unhandled system error相关的知识,希望对你有一定的参考价值。
title: Python报RuntimeError NCCL Error 2 unhandled system error
categories:
- Linux
- Python
- PyTorch
tags:
- Linux
- Python
- PyTorch
- 问题记录
Python报RuntimeError NCCL Error 2 unhandled system error
docker exec -it --user root -e NVIDIA_VISIBLE_DEVICES=0,1,2,3 remote /bin/bash
上面的命令,目前好像没用了。。。
github别人的方法,我通过自己创建了一个新的容器,然后在这基础上进行了配置,发现不会出现RuntimeError: NCCL Error 2: unhandled system error的问题了。
docker exec -it --user root --gpus all --ipc=host -e NVIDIA_VISIBLE_DEVICES=0,1,2,3 remote /bin/bash
需要重新创建一个容器!!!
然后重新配置环境就好了。
以上是关于Python报RuntimeError NCCL Error 2 unhandled system error的主要内容,如果未能解决你的问题,请参考以下文章
Python报RuntimeError NCCL Error 2 unhandled system error
解决RuntimeError: Distributed package doesn‘t have NCCL built in
解决RuntimeError: Distributed package doesn‘t have NCCL built in
完美解决windows系统raise RuntimeError(“Distributed package doesn‘t have NCCL “
return torch._C._broadcast_coalesced(tensors, devices, buffer_size)RuntimeError: NCCL Error 2:unhand