分布式机器学习如何用于大模型？

Posted 2021-09-16 人工智能博士

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了分布式机器学习如何用于大模型？相关的知识，希望对你有一定的参考价值。

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：专知

在现代人工智能中，大规模深度学习模型已经成为许多重要互联网业务背后的核心技术，如搜索/广告/推荐系统/CV/NLP。BERT、Vision Transformer、GPT-3和Switch Transformer模型将模型规模扩大到10亿甚至数万个参数，几乎所有学习任务的准确性都得到了显著提高。使用云集群的分布式训练是及时成功地训练此类大规模模型的关键。开发更先进的分布式训练系统和算法既可以降低能源成本，也可以让我们训练更大的模型。此外，开发像联邦学习这样的颠覆性学习模式也至关重要，它不仅可以保护用户的隐私，还可以分担处理前所未有的大数据和模型的负担。这次演讲将主要关注大规模模型的分布式ML系统: 云集群的动态分布式训练(https://DistML.ai)和边缘设备的大规模联合学习(https://FedML.ai)。在第一部分中，我将介绍PipeTransformer，这是一种用于分布式训练Transformer模型(BERT和ViT)的自动化弹性管道。在PipeTransformer中，我们设计了自适应的飞冻结算法，可以在训练过程中逐步识别和冻结部分层，并设计了弹性流水线系统，可以动态减少GPU资源来训练剩余的激活层，并在已释放的GPU资源上分叉更多的管道，以扩大数据并行度的宽度。第二部分，我将讨论可扩展的联邦学习，用于在资源受限的边缘设备和FedML生态系统上训练大型模型，其目标是针对CV NLP、GraphNN和IoT等多种AI应用在边缘进行无处不在的分布式训练。

地址：

https://www.youtube.com/watch?v=AY7pCYTC8pQ

作者：

Chaoyang He，美国洛杉矶南加州大学计算机科学系博士研究生