pytorch分布式训练 DistributedSamplerDistributedDataParallel

Posted 亓官劼

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pytorch分布式训练 DistributedSamplerDistributedDataParallel相关的知识,希望对你有一定的参考价值。

pytorch分布式训练 DistributedSampler、DistributedDataParallel

  大家好,我是亓官劼(qí guān jié ),在【亓官劼】公众号、CSDN、GitHub、B站、华为开发者论坛等平台分享一些技术博文,主要包括前端开发、python后端开发、小程序开发、数据结构与算法、docker、Linux常用运维、NLP等相关技术博文,时光荏苒,未来可期,加油~

  如果喜欢博主的文章可以关注博主的个人公众号【亓官劼】(qí guān jié),里面的文章更全更新更快。如果有需要找博主的话可以在公众号后台留言,我会尽快回复消息,其他平台私信回复较慢。


使用多卡训练的时候,常见的DataParallel进行训练,但是这样会有一个问题,就是主卡的显存占用远远大于另外 几张卡,但是一旦加大模型参数主卡显存就会爆,对另外几张卡来说,显存就浪费了。使DistributedDataParallel进行分布式训练的话就可以解决这点。

一般使用方法为:

非核心内存进行了省略

..

以上是关于pytorch分布式训练 DistributedSamplerDistributedDataParallel的主要内容,如果未能解决你的问题,请参考以下文章

PyTorch多卡分布式训练DistributedDataParallel 使用方法

[源码解析] PyTorch 分布式之弹性训练---Rendezvous 引擎

PyTorch:模型训练-分布式训练

PyTorch:模型训练-分布式训练

Pytorch分布式训练与断点续训

Pytorch分布式训练与断点续训