深度学习框架原理解析:百度飞桨的多GPU并行训练方案
Posted 智东西
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习框架原理解析:百度飞桨的多GPU并行训练方案相关的知识,希望对你有一定的参考价值。
深度学习框架原理解析:PaddlePaddle的多GPU并行训练方案在进行深度学习模型训练的时候,我们一般都会使用GPU来进行加速训练。当训练的样本只有百万级别的时候,单卡GPU基本就可以满足我们的需求,然而当训练样本量达到上千万,上亿级别之后,单卡训练的时间就会很长,远远无法满足我们的需求,这个时候我们通常会使用多卡进行加速。
对于很多的开发者来说,本身并不了解GPU之间的通信技术,因为我们在使用深度学习框架的时候,框架本身就会提供这样的高级接口以供使用。当然,目前使用多个GPU训练神经网络也已经成为所有深度学习框架的普遍做法。
飞桨(PaddlePaddle),是百度2016年宣布开源的一款深度学习平台,同时也是国内最先开源开放、功能完备的深度学习框架。框架本身更是同时支持稠密参数和稀疏参数场景的超大规模深度学习并行训练,支持千亿规模参数、数百节点的高效并行训练,提供强大的深度学习并行技术。
NCCL(NVIDIA Collective Communications Library),是由 NVIDIA 提出的一种针对GPU性能优化的多GPU和多节点集体通信原语库。通过NCCL提供的多GPU和多节点通信,可以有效地扩展神经网络训练的规模,即使用多GPU进行并行训练。
12月23日晚7点,智东西公开课推出深度学习框架公开课 NVIDIA &百度联合专场。本次联合专场,NVIDIA 中国区HPC/DL解决方案架构师程帅和百度深度学习技术平台部资深研发工程师刘毅,将共同讲解PaddlePaddle在多GPU下的并行训练方案。
开 课 时 间
时间:12月23日19点
地点:智东西公开课小程序
讲 师 介 绍
程帅,NVIDIA 中国区HPC/DL 解决方案架构师,在HPC和DL领域有多年的架构方案经验,支持过国内多个大型HPC 数据中心以及多家大型CSP中DL集群设计。
刘毅,百度深度学习技术平台部资深研发工程师,博士毕业于中国科学院计算技术研究所,具有多年自然语言处理和大规模分布式训练的实战经验,专注负责飞桨GPU大规模分布式训练的工作研究与落地应用。
课 程 内 容
主题:飞桨平台的多GPU并行训练方案解析
提纲:
1、大规模GPU集群通信的挑战
2、NCCL如何提升大规模GPU集群的数据传输效率
3、飞桨平台多GPU并行训练的基础能力
4、飞桨平台的并行训练案例解析
- 面向公有云环境的GPU并行训练
- 显存有限的大Batch训练组件
- 超大规模分类应用于人脸识别
加入主讲群
每场专场我们都将设置主讲群,并会邀请讲师入群。加入主讲群,你除了可以免费收听直播之外,还能直接和讲师认识及交流。当然,你还可以结识更多的技术大牛。
想要加入主讲群的朋友可以扫描海报底部的二维码添加小助手大越(ID:xdxaxx)进行申请,备注“姓名-公司/学校/-职位/专业”的朋友可以优先审核通过哦。
适合人群
1、企业AI开发者
2、企业管理人员
3、从事AI研究的研究人员、老师、学生
快速入群通道
心急的小伙伴可以扫描下方二维码填写主讲群申请表,将获得快速入群资格哦。
点个“在看”和大家一起聊聊
以上是关于深度学习框架原理解析:百度飞桨的多GPU并行训练方案的主要内容,如果未能解决你的问题,请参考以下文章