深度学习工业界应用-加速-训练-MPI和RDMA
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习工业界应用-加速-训练-MPI和RDMA相关的知识,希望对你有一定的参考价值。
参考技术A MPI是一门比较老的技术,在高性能计算界(特别是成熟的科学计算软件中)几乎是标配,其对高性能通信(特别是rdma)优化较好。
特定于机器学习任务,MPI最大的优势有两点。一是 MPI有一个高性能 allreduce 的实现,底层实现了 tree aggregation。 二是程序可以无缝移植到异构高性能计算环境,例如 infiniband.
Remote Direct Memory Access (RDMA)提供了一种跨过cpu,os和TCP/IP 协议栈直接访问远端内存到本地内存的方式。其有低延迟,低cpu使用率的有点,原理如下图。
另外的实现了如上操作,可以选择的技术是
如果你训练的模型比较大,需要多机多卡的训练。如果你的 训练通讯/计算的占比较高 。这时候就需要针对通讯做优化。一个比较好的方式就是mpi + rdma on infiniband。一个具体的例子就是PaddlePaddle的实现 RDMANetwork.h
1. 知乎:MPI 在大规模机器学习领域的前景如何?
2. MPI Tutorial
3. MPI Collective
以上是关于深度学习工业界应用-加速-训练-MPI和RDMA的主要内容,如果未能解决你的问题,请参考以下文章
阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力