PyTroch笔记 - 多GPU分布式训练

Posted SpikeKing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PyTroch笔记 - 多GPU分布式训练相关的知识,希望对你有一定的参考价值。

PyTorch DIstributed Overview

  • Distributed Data-Parallel Training,DDP,分布式数据并行训练
    • torch.nn.parallel.DistributedDataParallel
  • RPC-Based Distributed Training,RPC,基于RPC的分布式训练
  • Collective Communication,协同通信

不要把张量当入日志中输出,使用“.item()”转换为python的数据类型

logging.warning(f"epoch_index: 
     epoch_index, batch_index: 

以上是关于PyTroch笔记 - 多GPU分布式训练的主要内容,如果未能解决你的问题,请参考以下文章

PyTroch随笔 - 多GPU分布式训练

DistributedDataParallel多GPU分布式训练全过程总结 跟着做90%成功

『TensorFlow』分布式训练_其二_多GPU并行demo分析(待续)

Pytorch 多GPU训练-多计算节点并行-All you need

TensorFlow分布式部署单机多卡

[pytorch]单多机下多GPU下分布式负载均衡训练