pytorch中使用多显卡训练以及训练时报错:expect more than 1 value per channel when training, got input size..

Posted rainsoul

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pytorch中使用多显卡训练以及训练时报错:expect more than 1 value per channel when training, got input size..相关的知识,希望对你有一定的参考价值。

pytorch在训练中使用多卡:

        conf.device = torch.device(‘cuda:0‘ if torch.cuda.is_available() else "cpu")
        conf.device_ids = list(conf.device_ids)
        self.model = torch.nn.DataParallel(self.model, device_ids=conf.device_ids)
        self.model.to(conf.device)

 然后在训练的命令行需要指定GPU:

export CUDA_VISIBLE_DEVICES=4,5,6,7

 在pytorch内部,conf.device_ids依旧是从0开始的;

 

训练的时候报错:

 

技术图片

 

是由于batchnorm层需要大于一个样本去计算其中的参数,网上搜索了解决方法是将dataloader的一个丢弃参数设置为true:

技术图片

 

但是我设置后依旧会报错,然后就在train里面人为修改了一下:

如果剩下的照片为1,那么就丢掉,就可以了:

技术图片

 

以上是关于pytorch中使用多显卡训练以及训练时报错:expect more than 1 value per channel when training, got input size..的主要内容,如果未能解决你的问题,请参考以下文章

Pytorch使用分布式训练,单机多卡

Pytorch中多GPU训练指北

Pytorch中多GPU训练指南

pytorch单机多卡训练

PyTorch 半精度训练踩坑

Pytorch分布式训练与断点续训