pytorch分布式训练 DistributedSamplerDistributedDataParallel

Posted 2022-02-20 亓官劼

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了pytorch分布式训练 DistributedSamplerDistributedDataParallel相关的知识，希望对你有一定的参考价值。

pytorch分布式训练 DistributedSampler、DistributedDataParallel

大家好，我是亓官劼（qí guān jié ），在【亓官劼】公众号、CSDN、GitHub、B站、华为开发者论坛等平台分享一些技术博文，主要包括前端开发、python后端开发、小程序开发、数据结构与算法、docker、Linux常用运维、NLP等相关技术博文，时光荏苒，未来可期，加油~

如果喜欢博主的文章可以关注博主的个人公众号【亓官劼】(qí guān jié)，里面的文章更全更新更快。如果有需要找博主的话可以在公众号后台留言，我会尽快回复消息，其他平台私信回复较慢。

使用多卡训练的时候，常见的DataParallel进行训练，但是这样会有一个问题，就是主卡的显存占用远远大于另外几张卡，但是一旦加大模型参数主卡显存就会爆，对另外几张卡来说，显存就浪费了。使DistributedDataParallel进行分布式训练的话就可以解决这点。

一般使用方法为：

非核心内存进行了省略

..

以上是关于pytorch分布式训练 DistributedSamplerDistributedDataParallel的主要内容，如果未能解决你的问题，请参考以下文章

PyTorch多卡分布式训练DistributedDataParallel 使用方法

[源码解析] PyTorch 分布式之弹性训练---Rendezvous 引擎

PyTorch：模型训练-分布式训练

Pytorch分布式训练与断点续训