重磅|百度宣布PaddlePaddle和Kubernetes 兼容:开发者可便捷做大规模深度学习训练
Posted 全球人工智能
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了重磅|百度宣布PaddlePaddle和Kubernetes 兼容:开发者可便捷做大规模深度学习训练相关的知识,希望对你有一定的参考价值。
社群用户来源包含:麻省理工学院 斯坦福大学 牛津大学 卡内基梅隆大学 剑桥大学 加州大学伯克利分校 苏黎世联邦理工学院 新加坡国立大学 普林斯顿大学 多伦多大学 帝国理工学院 墨尔本大学 香港科技大学 加州大学洛杉矶分校 清华大学 洛桑联邦理工学院 香港大学 爱丁堡大学 东京大学 香港中文大学 北京大学 复旦大学 武汉大学 南开大学 中科院等数百所名牌大学的研究生、博士以及教授;NVidia Facebook Line 微软 IBM 谷歌 Bosch Amazon Tesla Motors 百度 华为 英特尔 腾讯 阿里巴巴 蚂蚁金服 科大讯飞 旷世科技 碳云智能 地平线 软银投资 红杉资本等上千家全球一流AI相关企业的工程师以及技术专家。
百度宣布实现开源软件框架PaddlePaddle和集群管理系统(cluster management system)Kubernetes 的兼容
百度深度学习开源软件框架PaddlePaddle现在能与Kubernetes集群管理系统兼容,这次兼容将使开发者能够便捷地在全球主要云服务以及集群上做大规模深度学习训练。这不仅扩展了Kubernetes的使用范围,也向两个项目提供了端到端(end-to-end)的深度学习机会。
PaddlePaddle框架
PaddlePaddle是百度原创的一款易于使用的深度学习框架。近四年来它应用于百度旗下的多款互联网产品。该框架尤其适合训练循环神经网络(recurrent neural networks),能高效执行自然语言理解、语音识别、和计算视觉等应用。自2016年百度世界大会上,宣布开放百度深度学习平台以来,PaddlePaddle已成为发展最快的深度学习平台之一。
深度学习必须要在给定的数据集上进行训练。在深度学习中,训练过程不仅可能需要大规模的处理器协调工作,而且可能很耗时,如果在整个机器集群中工作,这可能会加速训练过程。百度自主开发的Paddle(PArallel Distributed Deep Learning的缩写)在计算机集群上运行,进行机器翻译和搜索排序等任务的模型训练。目前百度将使用Kubernetes去管理这些集群。
Kubernetes 上运行 PaddlePaddle的优势
百度科学家表示,Kubernetes可以有效简化分布式作业,包括分布式机器学习作业的部署和运维工作,提升研究员和开发者的工作效率。Kubernetes将根据GPU的PaddlePaddle任务与需求内存或磁盘I/O吞吐量等其他不同资源的任务部署在同一个物理计算机之上,从而发挥集群硬件的最大效用。同时Kubernetes还能在活跃用户较多的白天自动启动更多的Web服务进程,而在夜间释放Web服务使用的部分资源来启动更多的PaddlePaddle进程。
百度PaddlePaddle研发项目首席科学家王益指出:“Kubernetes也提供容错功能,在某些特殊情况下,一些工作的容器/进程被被终止,但我们不希望这些工作暂停或崩溃,相反,我们希望它们继续运行,即使速度较慢”
王益还指出,PaddlePaddle用户已经倾向于使用Kubernetes,因此这也激励了百度去思考如何在它上面建立PaddlePaddle,他们希望与Kubernetes社区合作,提供一个完整的解决方案 - 包括集群部署,数据管道构建和人工智能;许多潜在客户,特别是传统行业的客户,有兴趣在自己的内部集群上开展深度学习。
总结
在深度学习中,研究人员越来越重视将训练模型与使用模型分开。训练过程需要高性能CPU和内存在协同工作,但是在相对低端的硬件上部署模型正在变得切实可行。Tensorflow已经在考虑做出相应的应对措施。随着深度学习对计算量的要求越来越高,其训练阶段将变得至关重要,这会促进更强大的、更容易的管理的训练机制产生。
本 Kubernetes 项目的 GitHub:
https://github.com/kubernetes/kubernetes
❈
全球人工智能近期经典文章推荐
❈
以上是关于重磅|百度宣布PaddlePaddle和Kubernetes 兼容:开发者可便捷做大规模深度学习训练的主要内容,如果未能解决你的问题,请参考以下文章
重磅 | PaddlePaddle之后,百度开源深度学习硬件基准DeepBench
厉害了!百度成立新部门,豪华技术团队加持 PaddlePaddle 研发
百度paddlepaddle深度学习平台全套入门教程 ‖ 资源