建设领先的AI原生云,百度智能云落地新一代高性能AI计算集群
Posted 百度大脑
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了建设领先的AI原生云,百度智能云落地新一代高性能AI计算集群相关的知识,希望对你有一定的参考价值。
百度智能云新一代高性能 AI 计算集群落地,提供 EFLOPS 级算力支持,并发布新一代 GPU 服务器实例 GPU-H5-8NA100-IB01。该集群基于 NVIDIA A100-80GB GPU 和 NVIDIA InfiniBand 网络构建,成为领先的 AI 原生云算力底座。
研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大 AI 模型的训练时间,激发 AI 业务创新想象力。
新的 GPU 服务器实例采用百度自研的 X-MAN 架构的超级 AI 计算机为硬件平台。
X-MAN 自2016年推出以来,已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年,申请六项专利,包括 PCie Fabric 架构、液冷技术、最大支持64 GPU 卡扩展等,是百度 AI 业务快速落地的重要基础设施。
目前,X-MAN 已经全面升级到第四代 X-MAN 4.0,为 AI 和 HPC 等计算场景进行了新的优化设计。
配置方面,每台 X-MAN 4.0包含8张 NVIDIA A100-80GB GPU,并可支持8张200Gb/s 的 InfiniBand 网卡,实现了高速存储、高速无阻网络、高性能计算于一体的超级 AI 计算机。
架构方面,X-MAN 4.0全新设计的架构缩短了数据传输延迟,提高了数据传输带宽,有效解决本地数据传输的通信瓶颈,降低 AI 作业中 GPU 的闲置时间。在 MLCommons 1.1榜单中,X-MAN 4.0在同配置单机硬件性能名列 TOP2。
为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。这个架构优化了网络收敛比,提升了网络吞吐能力。并结合容错、交换机亲和,拓扑映射等手段,得以将 EFLOPS 级算力的计算集群性能发挥到极致。
经过内部 NLP 研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业时,同等机器规模下整体训练效率是普通 GPU 集群的3.87倍。
百度副总裁谢广军先生表示:“AI 原生云是推动企业智能化升级的核心驱动力。作为中国 AI 公有云服务市场领跑企业,百度智能云一直在优化提升智能计算的核心能力。X-MAN 4.0助力百度内部业务发展的同时,我们也愿意将这一领先的架构开放给百度智能云的众多客户,帮助大家一起更高效地进行 AI 研发与探索,驱动业务创新,迈向 AI 原生。”
即日起,百度智能云的客户可以在如下网址进行 GPU 云服务器计算实例 GPU-H5-8NA100-IB01 的申购:https://cloud.baidu.com/product/gpu.html?track=weixin
为了帮助客户更深入地了解新的 GPU 服务器实例,以及超大规模的高性能集群构建的技术细节,百度智能云将与 NVIDIA 于3月16日19:00举办在线研讨会进行详细分享,解答客户的问题,请前往B站【百度智能云的朋友们】进行观看。
以上是关于建设领先的AI原生云,百度智能云落地新一代高性能AI计算集群的主要内容,如果未能解决你的问题,请参考以下文章
百度世界2021:百度大脑升级昆仑芯2量产智能云加速AI落地爆发