AI开发利器——深度学习框架Caffe-MPI加速比最好
Posted 浪潮AIHPC
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了AI开发利器——深度学习框架Caffe-MPI加速比最好相关的知识,希望对你有一定的参考价值。
近日,在2017人工智能计算大会(AICC)上,香港浸会大学褚晓文副教授发表了目前主流深度学习框架评测的主题报告(),报告显示由浪潮牵头开发的开源项目Caffe-MPI,与其他主流框架相比取得了最佳的加速比,并在GoogLeNet网络模型中取得最佳性能。
根据报告显示数据,由浪潮开发的Caffe-MPI2.0,在4节点16块P40 GPU的计算集群上,采用Imagenet数据集,采用GoogLeNet模型(Batchsize=128)16卡训练性能为5886张图片每秒,较单卡提升14.2倍,采用ResNet模型(Batchsize=32)时16卡训练性能为1372张图片每秒,较单卡提升15.34倍,扩展效率高达96%,超越CNTK和MXNet成为加速比最好的深度学习框架,也是在GoogLeNet模型下性能最好的深度学习框架。
香港浸会大学测试报告
香港浸会大学副教授褚晓文表示,目前在测的所有深度学习框架中,浪潮Caffe-MPI展现出最好的加速比性能,相信对于所有需要将Caffe扩展到多机环境的用户,浪潮Caffe-MPI将是最好的选择。
Caffe-MPI 2.0出色的加速比得益于在并行算法设计上的创新突破。Caffe-MPI设计了两层通信模式:节点内的GPU卡间通信及节点间的RDMA全局通信,通过调用NCCL 2.0实现。这种设计极大降低了网络通信的压力,并克服了传统通信模式中PCIE与网络之间带宽不均衡的影响,非常适合现在的高密度GPU服务器。
同时Caffe-MPI 2.0还设计实现了深层神经网络模型各层计算和通讯的异步,合并了多层待通信数据然后在到达一定量级时进行通信,有效避免了层内部数据量较小时的通信延迟。此外,Caffe-MPI 2.0还提供了更好的cuDNN兼容性,用户可以无缝调用最新的cuDNN版本实现更大的性能提升。这些设计细节使得Caffe-MPI 2.0能够在当前流行的深度学习框架下的集群训练中,实现近似线性的扩展。
Caffe-MPI是首个集群并行版的Caffe深度学习计算框架,基于伯克利Caffe框架,由浪潮主导开发并已在Github上开源公布所有代码,其采用成熟的MPI技术对Caffe予以数据并行的优化,目标是解决深度学习计算模型训练的效率问题。目前,2.0版本已在社区完成更新,所有用户现在可以免费下载:https://github.com/Caffe-MPI/Caffe-MPI.github.io/tree/master
点击“阅读原文”,可直达下载页面:
以上是关于AI开发利器——深度学习框架Caffe-MPI加速比最好的主要内容,如果未能解决你的问题,请参考以下文章
计算机专题研究深度学习框架性能优于TensorFlow近2倍,Caffe-MPI提升AI服务器并行计算效率
浪潮发布新版Caffe-MPI,较谷歌TensorFlow性能翻倍