深度学习框架原理解析：百度飞桨的多GPU并行训练方案

Posted 2021-04-20 智东西

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深度学习框架原理解析：百度飞桨的多GPU并行训练方案相关的知识，希望对你有一定的参考价值。

深度学习框架原理解析：PaddlePaddle的多GPU并行训练方案在进行深度学习模型训练的时候，我们一般都会使用GPU来进行加速训练。当训练的样本只有百万级别的时候，单卡GPU基本就可以满足我们的需求，然而当训练样本量达到上千万，上亿级别之后，单卡训练的时间就会很长，远远无法满足我们的需求，这个时候我们通常会使用多卡进行加速。

对于很多的开发者来说，本身并不了解GPU之间的通信技术，因为我们在使用深度学习框架的时候，框架本身就会提供这样的高级接口以供使用。当然，目前使用多个GPU训练神经网络也已经成为所有深度学习框架的普遍做法。

飞桨（PaddlePaddle），是百度2016年宣布开源的一款深度学习平台，同时也是国内最先开源开放、功能完备的深度学习框架。框架本身更是同时支持稠密参数和稀疏参数场景的超大规模深度学习并行训练，支持千亿规模参数、数百节点的高效并行训练，提供强大的深度学习并行技术。

NCCL（NVIDIA Collective Communications Library），是由 NVIDIA 提出的一种针对GPU性能优化的多GPU和多节点集体通信原语库。通过NCCL提供的多GPU和多节点通信，可以有效地扩展神经网络训练的规模，即使用多GPU进行并行训练。

12月23日晚7点，智东西公开课推出深度学习框架公开课 NVIDIA &百度联合专场。本次联合专场，NVIDIA 中国区HPC/DL解决方案架构师程帅和百度深度学习技术平台部资深研发工程师刘毅，将共同讲解PaddlePaddle在多GPU下的并行训练方案。