深度学习框架加速AI算法开发和应用效率

Posted 广东省创新孵化器运营研究院

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习框架加速AI算法开发和应用效率相关的知识,希望对你有一定的参考价值。

深度学习框架加速AI算法开发和应用效率

科普百分百 2018-03-19 01:54:00

随着人工智能的火热,目前开源出来的深度学习框架非常多,如Caffe、TensorFlow、MXNet、Torch等等。框架众多,如何选择?选择一种框架还是多种组合?针对不同的场景或者模型需要选择什么样的框架?面对多大数据量需要选择多机并行的框架?这些我们针对深度学习框架所面临的挑战,难免会让很多人犯难。

近期,浪潮与美国某知名的互联网公司开展联合测试,对主流的深度学习框架做了一个测评。把三个主流的框架Caffe、TensorFlow和MXNet部署到浪潮SR-AI整机柜服务器平台上(配置16块GPU卡),采用ImageNet数据集,测试AlexNet和GoogLeNet两种典型网络。

深度学习框架加速AI算法开发和应用效率

图:浪潮联合美国某知名的互联网公司对主流深度学习框架的测试结果

从测试结果来看,当运行AlexNet网络时,Caffe性能最好,每秒可以训练图片张数达到4675张,16个GPU比单个GPU的加速比达到14倍。其次是MXNet,最后是TensorFlow。

当运行GoogLeNet时,MXNet性能最好,每秒可以训练的图片张数达到2462张,16个GPU比单个GPU的加速比达到12.7倍。其次是Caffe,最后是TensorFlow。

从这个评测来看,基于不同的网络,所选择最优的框架是不一样的。

基本上可以有大致的一个原则来选择:我们会根据不同的场景和模型来选择至少一种深度学习框架,目前很难说一种框架能在所有的应用场景中表现最优。

如果是图像方面的应用,主要采用Caffe、TensorFlow和MXNET这三种框架;如果是语音的话,可以选择CNTK;自然语言处理的话可以采用PaddlePaddle。

针对大数据量的训练,采用单机训练的话时间会很长,有可能是几周或几个月训练出一个模型,需要采用分布式框架。浪潮自研的深度学习框架Caffe-MPI,就实现了多机多GPU卡的并行训练。通过实际测试,Caffe-MPI采用16个GPU卡同时训练时,每秒处理效率达到3061张,较单卡性能提升13倍,扩展效率达到81%,性能将近是TensorFlow的2倍。

目前,浪潮Caffe-MPI框架目前已在Github开源,提供免费下载使用。与此同时,浪潮还推出AI管理软件AIStation,可以提供从数据准备到分析训练结果的完整深度学习业务流程,支持Caffe、TensorFlow、CNTK等多种计算框架和GoogleNet、VGG、ResNet等多种模型。AIStation支持对训练过程实时监控并可视化训练过程,支持打印每一步的损失函数值的日志、训练误差或测试误差等;支持动态分配GPU资源实现资源合理共享,实现了“一键式”部署深度学习计算环境、快速启动训练任务;还可以实时监控集群的使用情况,合理安排训练任务,可及时发现运行中的问题,提高集群的可靠性。

深度学习框架加速AI算法开发和应用效率

图:浪潮AI管理软件AIStation

除此以外,浪潮还可提供天眼高性能应用特征监控分析系统,量化超算软件特征,提取和记录应用软件在高性能计算机运行过程中实时产生的CPU、内存、磁盘、网络等系统信息和微架构信息,及时帮助使用者找到系统瓶颈,并能准确地分析出程序开发者的应用软件特征,帮助用户合理的划分集群使用资源、提高使用效率。

有了强劲的AI计算平台、适合的开发框架、高效的AI管理监控软件,一个AI基础平台就基本构建完成,剩下的就是靠优化的算法把你所拥有的数据,转化成更有价值的资源。





深度学习框架加速AI算法开发和应用效率

版权声明:图文来源网络,我们对文中观点保持中立,只以信息传播为目的,文章版权归原作者所有,如有侵权,请联系我们删除。

广东省创新孵化器运营研究院

中国 广州 暨南大学科学馆609

广州  珠江新城 富力盈丰大厦

电 话:020-89779666



以上是关于深度学习框架加速AI算法开发和应用效率的主要内容,如果未能解决你的问题,请参考以下文章

系统梳理TensorFlowPyTorch等深度学习框架,洞悉AI系统底层原理和算法

系统梳理TensorflowPyTorch等深度学习框架,洞悉AI系统底层原理和算法

打破深度学习局限,强化学习深度森林或是企业AI决策技术的“良药”

除了TensorFlowPyTorch,还有哪些深度学习框架值得期待?

如果AI框架工具被禁用,中国深度学习框架能崛起么?

AI智能分析网关包含哪些深度学习算法?如何赋能场景应用?