深度学习工业界应用-加速-训练-MPI和RDMA

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习工业界应用-加速-训练-MPI和RDMA相关的知识,希望对你有一定的参考价值。

参考技术A

MPI是一门比较老的技术,在高性能计算界(特别是成熟的科学计算软件中)几乎是标配,其对高性能通信(特别是rdma)优化较好。
特定于机器学习任务,MPI最大的优势有两点。一是 MPI有一个高性能 allreduce 的实现,底层实现了 tree aggregation。 二是程序可以无缝移植到异构高性能计算环境,例如 infiniband.

Remote Direct Memory Access (RDMA)提供了一种跨过cpu,os和TCP/IP 协议栈直接访问远端内存到本地内存的方式。其有低延迟,低cpu使用率的有点,原理如下图。

另外的实现了如上操作,可以选择的技术是

如果你训练的模型比较大,需要多机多卡的训练。如果你的 训练通讯/计算的占比较高 。这时候就需要针对通讯做优化。一个比较好的方式就是mpi + rdma on infiniband。一个具体的例子就是PaddlePaddle的实现 RDMANetwork.h

1. 知乎:MPI 在大规模机器学习领域的前景如何?
2. MPI Tutorial
3. MPI Collective

以上是关于深度学习工业界应用-加速-训练-MPI和RDMA的主要内容,如果未能解决你的问题,请参考以下文章

实战Google深度学习框架:TensorFlow计算加速

阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力

工程之道,深度学习推理性能业界最佳优化实践

工程之道,解读业界最佳的深度学习推理性能优化方案

2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力

2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力