高性能算力中心 — RDMA — NVIDIA SHARP

Posted 2022-07-16 范桂飓

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了高性能算力中心 — RDMA — NVIDIA SHARP相关的知识，希望对你有一定的参考价值。

SHARP

SHARP（Scalable Hierarchical Aggregation and Reduction Protocol，可扩展分层次聚合和归约协议）是一种聚合通信（e.g. ML 梯度聚合、FL 模型聚合）网络卸载技术。

SHARPv1：在 Switch-IB2 EDR InfiniBand 上实现，最大支持 256Byte 聚合通信卸载。
SHARPv2：在 Quantum HDR InfiniBand 上实现，最大支持 2GByte 聚合通信卸载。

在各种 HPC 和 AI 场景中，常常存在多种聚合类通信协议，这些聚合类通信由于涉及全局网络，常常会对 Application 的并行效率产生巨大的影响。

业内研究了多种优化聚合类通信效率的软件方法，但依旧没有很好的解决必须要在全局网络中进行多次通信才能完成整体聚合操作，且很容易引入网络拥塞。经过多种方法优化后，聚合类通信的延迟仍然比点对点通信高一个数量级以上。

针对这种情况，NVIDIA Mellanox 从 EDR InfiniBand Switch 开始引入了 SHARP 技术，在交换机芯片中集成了计算引擎单元，可以支持 16bit、32bit 及 64bit 定点计算或浮点计算，可以支持求和、求最小值、求最大值、求与、求或及异或等计算，可以支持 Barrier、Reduce、All-Reduce 等操作。

SHARP

以上是关于高性能算力中心 — RDMA — NVIDIA SHARP的主要内容，如果未能解决你的问题，请参考以下文章

高性能算力中心 — RoCE — Overview

高性能算力中心 — RoCE — 大规模部署挑战

数据中心网络架构 — 云网一体化数据中心网络 — 算力网络 — 超融合算力中心网络

到底什么是RDMA？为什么数据中心需要它？

2021显卡算力排行，显卡性能天梯图，挖矿显卡算力排行对照表

高性能算力中心 — RDMA — NVIDIA SHARP

目录

文章目录

SHARP