mmdetection使用指定编号的GPU训练模型
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了mmdetection使用指定编号的GPU训练模型相关的知识,希望对你有一定的参考价值。
参考技术A mmdetection使用指定编号的GPU训练模型。(Dataparallel用于多卡训练)修改mmdet/apis/train.py
将
(cfg.gpus为设置的使用gpus的数量,例如gpus=4,range(cfg.gpus)则指[0,1,2,3],使用编号为0,1,2,3的显卡,并且默认模型输出显卡:output_device为第一个元素上的显卡0)
修改为
cfg.gpus仍然等于4,range(4,4+cfg.gpus)则是[4,5,6,7]四块显卡,并且output_device为第一个元素上的显卡4,需要设置model.cuda(4)同步。
解决报错如下:
测试test.py时:(有问题)
修改device_ids的编号即可,如下使用id为6的显卡。
Dataparallel的用法参考:
Dataparallel源码解析
https://www.cnblogs.com/marsggbo/p/10962763.html
训练TensorFlow模型的时候,GPU使用率总是出现突然的降低,波动很大,我想问问大神们原因是啥
这个是一个mnist手写体识别的模型,batch_size=500,使用GPU训练,但是GPU使用率会出现突然的波谷,我这个是并行了好几个任务的图(图一),如果单个任务的话,波动更大,如图2。我想请教大神的是,为什么出现这样的波动?是因为GPU的回收机制还是因为各种延迟?
我在用pytorch训练时也出现这样的问题,可能是模型相对较小,数据从CPU传递到GPU需要一定的时间。 参考技术A 你的问题有点不清楚:“在命令行import tensorflow有个路径:c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor......”?
有点搞不清你怎么看到这个的。在python interpreter
>>>import?tensorflow
...?(省略)
>>>?tensorflow
from 后面的就是安装的地方。追问
您好,我的意思是使用GPU训练模型的时候,用nvidia-smi -l 监控到的性能指标GPU-Util的值波动很大,想知道一下导致这个原因是什么
以上是关于mmdetection使用指定编号的GPU训练模型的主要内容,如果未能解决你的问题,请参考以下文章
单机多GPU训练模型入门指南(torch.nn.DataParallel)
单机多GPU训练模型入门指南(torch.nn.DataParallel)