6个月火速炼成千亿参数大模型!背后是披荆斩棘的华为云哥哥们

Posted QbitAl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了6个月火速炼成千亿参数大模型!背后是披荆斩棘的华为云哥哥们相关的知识,希望对你有一定的参考价值。

金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

6个月的时间为约定,他们就这样硬生生地打造了个全球领先——华为云盘古大模型

业界首个千亿级生成与理解中文NLP大模型。

业界最大的CV大模型。

而在这场攻坚战中,华为云人工智能领域首席科学家田奇和团队成员担起了重担。

田奇在学术圈可以说是位老将,但当时的事实却是,他在华为云任职才刚刚满半年

并且面临的还是“首个”“最大”级别的挑战。

很重要,一定要“啃”下来。

这是田奇在心中默默许下的承诺。

大模型是趋势,更是必争的高地

时间线先拉回到2018年。

当时的预训练模型,可以说是成功激活了深度神经网络,以及对大规模无标注数据的自监督学习能力。

它一定程度上打开了深度学习模型规模与性能齐飞的局面(尤其是自然语言处理)。

国际巨头们在尝到预训练模型带来的“甜头”之后,开始对它展开了激烈的竞争,竞相追逐模型规模和性能的新高度。

例如OpenAI的GPT、GPT-2;谷歌的BERT更是惊艳四座,将自然语言处理推向了一个前所未有的新高度。

更是被当时的学术界、媒体评价为“开启了NLP新时代”。

而在短短两年时间后,OpenAI在2020年发布的GPT-3,参数量已经达到了惊人的1750亿,其能力更是不言而喻了。

……

当时,AI对企业的渗透率逐年提升,正在加速进入千行百业。而华为云也早已将AI作为重要赛道。

但AI的短板也越发地明显起来——AI应用的碎片化

简单来说,就是团队开发了一个AI模型,但在应用过程中,往往会因为场景的多样性、复杂性,无法达到“以一敌十”的效果。

而大模型所体现出来的惊艳效果,正是强悍的自我学习、应万变的能力。

大模型正在成为AI发展趋势,是必争的高地,“需要且必要”。

于是,华为云盘古大模型团队开始“汇聚英才”,初始团队个个都是NLP、CV的技术专家,同时还集结了一些外部合作伙伴和高校的力量。

这些人最终成为了华为云盘古大模型最为中坚的力量。

不过在此之后,第二个问题也随之而来——该怎么做?

当时大模型在国内外的情况是:国外对NLP大模型的关注度较高,而且已经取得了较好的成绩;但国内外对CV方面的大模型关注度都不高。

基于这样的一个现状,田奇团队很快便找到差异化的突破口:

CV着手,与NLP并行;二者结合语言、图像,搞多模态;最后还有一个科学计算

当然,大模型四个大方向的制定,也是以华为云自身业务为出发点。

不难看出,田奇团队要打造的大模型,不再是一个方向的“单项选手”,而是全能型的那种。

也正是由于打造大模型的必要性,以及打法的差异化,2020年11月,“华为云盘古大模型”的设想在内部立项成功

……

好的开局已经铺设好,但接下来的路才是攀峰的开始。

虽说得益于华为在AI领域已有的功底:左手一个CANN算子 (异构计算框架),右手MindSpore (全场景AI计算框架)和ModelArts(一站式AI开发平台),工程方面的挑战并没有成为最大的阻力。

反倒是那些非技术问题,成为了团队最大的压力。

他们面临的第一个困难,便是“与时间赛跑”

从国外的BERT到GPT-3,以及它们的各种“衍生品”;再到国内友商们在大模型上的发力。

很明显的一个趋势是,参数规模在不断扩大、能力在大幅提升,而迭代的速度却越来越快。

正因如此,留给他们打造盘古大模型的时间是真的不多,而且一开始田奇团队人数也并不充裕。

为了解决这个问题,田奇给他的团队成员们封了一个称号——特战队员

我们在做NLP、CV和多模态大模型的时候,团队成员的身份是会互换的。

比如一个CV专家,可能也会去参与NLP和多模态大模型的开发,甚至他的CV知识都会灵活运用到其它领域中。

而且在后期,这些技术专家们还需要更长远地去考虑商业化模式方面的问题。

这还不算完,在处理诸如医疗方面的问题时,团队成员还得跟医学等行业专家“登门请教”。

因为唯有如此,才能让大模型在应用的过程中拿捏得住。

一人多用,是有种特战队员的意思了。

除了时间,数据资源又是一道大坎。

毕竟要训练大模型,数据是必不可缺的要素;而训练,又需要消耗大量的算力。

比如训练一个千亿参数的盘古NLP大模型,可能需要2000块v 100甚至更多的机器,一起跑上5、6个月。

为此,田奇团队采取的对策,总结为一个词就是——合作

例如数据方面,他们便找到了气象局等合作伙伴;资源、算力方面,又寻求与鹏城实验室进行合作。

但可想而知其间过程的复杂,谈下来合作的难度,定然不会是一蹴而就的事情。

……

就这样,零星的几个人为了一个共同的目标,排除万难地熬过了这样的大半年时间。

是上阵的时刻了

2021年4月25日,这是属于田奇和“特战队员”们的高光时刻。

在这一天,一年一度的华为开发者大会(HDC.Cloud)隆重召开,余承东也前来站台。

但纵观整场发布会,主角之一就是田奇和团队成员们打造的华为云盘古大模型。

“Hi,盘古”,这一声久违了的唤醒,终于让田奇在公众面前说了出来。

田奇:什么样的车没有油也可以跑?

盘古:新能源车和自行车没有油都可以跑。当然,还有玩具车。

田奇:什么是碳中和?碳排放主要来自于哪些行业?

盘古:碳中和就是把人为排放的二氧化碳,通过植树造林、节能减排等形式抵消掉,从而使得释放到大气中的总碳量净值为零。目前发电和供热行业、制造和建筑业是主要的碳排放行业。

……

这便是他与盘古流畅且超出众人意料的对话,盘古的常识推理等能力展露无疑。

田奇进一步解释道:

这段话的背后盘古模型阅读和理解了大量的相关文章,通过小样本学习对意图进行识别,转化为知识库和数据库查询,并根据返回的结果,生成最终的答案。

这种方式与GPT-3等仅基于端到端生成的方式不同,可以更准确地处理复杂场景,结合领域知识,具备更大的商业价值。

而通过这一次的亮相,华为云盘古大模型更加详细的全貌也一并公布了出来。

先观其貌,横揽AI领域四大热门方向

  • 自然语言处理(NLP)大模型

  • 计算机视觉(CV)大模型

  • 多模态大模型

  • 科学计算大模型

再闻其详,纵达业界能力之最

  • 华为云盘古NLP大模型:是业界首个千亿参数中文语言预训练模型,预训练阶段学习了40TB中文文本数据,是最接近人类中文理解能力的AI大模型。

  • 华为云盘古CV大模型:是目前业界最大的视觉预训练模型,包含超过30亿参数。

具体来说,当时盘古NLP大模型在权威的中文语言理解评测基准CLUE榜单中,总成绩及分类、阅读理解单项刷新三项榜单世界历史纪录,总成绩得分83.046。

而盘古CV大模型,则在ImageNet 1%、10%数据集上的小样本分类精度上,达到了业界最高水平。

而更为重要的,华为云盘古大模型的真·奥义,实则是直击痛点——天下苦AI开发久矣。

即便到了现在,AI开发的过程,较为贴切的比喻应该是“作坊模式”,换言之,就是需要手动的工作太多、太频繁。

而华为云盘古大模型所提供的方式,可以理解为工厂模式

具体来说,就是“预训练+下游微调”,这也是与目前全球主流大模型(如Bert)所匹配的一种模式,拥有极强的泛化能力。

换言之,这个模型可以做到“举一反三”。

……

但要说上阵,真正一层的含义并不是在发布会上的首秀,而是下场去在真实场景中发挥它的作用和价值。

这也是令盘古大模型团队成员们更为激动的事情。

据了解,截至目前为止,华为云盘古大模型已经在多个行业,100多个场景中发光发热,包括能源、零售、金融、工业、医疗、环境、物流等等。

“就很神奇”“非常激动”

这是来自于盘古大模型的服务客户——国网重庆永川供电公司技术人员的真真实实的反应。

这家公司是国内最早应用无人机电力智能巡检技术的电网企业之一。

传统的无人机智能巡检AI模型开发主要面临两大挑战:

  • 一是如何对海量数据进行高效标注。

  • 二是缺陷种类多达上百种,需要数十个AI识别模型,开发成本高。

而盘古CV大模型的到来,就很好地解决了这两大难题。

例如在数据标注方面,盘古 CV 大模型利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,提出了针对电力行业的预训练模型。

在应用之后,样本筛选效率提升约30倍,筛选质量提升约5倍:以永川每天采集5万张高清图片为例,可节省人工标注时间 170 人天。

而在模型通用性方面,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,可以做到一个模型适配上百种缺陷。

具体来说,一个模型就可以替代永川原先的20多个小模型,极大地减少了模型维护成本,平均精度提升18.4%,模型开发成本降低90%。

在应用华为云盘古大模型的前后,效能差距之大,也难怪客户会发出如此的感叹了。

披荆斩棘的科学家“哥哥们”

田奇,就是在华为云盘古大模型背后披荆斩棘的“哥哥们”中的一个。

田奇本科毕业于清华大学电子工程系,硕士毕业于美国德雷塞尔大学,后赴美国伊利诺伊大学香槟分校学习,师从Thomas S. Huang教授,并获得博士学位。

在2002年至2019年期间,田奇历任过美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、和正教授。

他在学术界这一呆,便是十七载

在学术界的这些年,说田奇是“蜚声中外”一点都不足为过:

  • 在计算机视觉及多媒体方向顶级期刊及会议如IEEE TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、ACM MM上发表文章超过650篇。

  • 谷歌学术引用次数超过30700次,h指数为83,有8篇论文获最佳论文奖或者最佳学生论文(截止2021年8月)。

田奇于2017年UTSA校长杰出研究奖、2018年入选国家级领军人才创新项目。他还是国家自然科学基金海外杰青、中国科学院海外评审专家、IEEE Fellow(2016)、国际欧亚科学院院士(2021)。

……

然而,就在一片美好未来的学术道路中,田奇在2018年,却作出了一个改变人生轨迹的决定:

离开学术界,加入华为诺亚方舟实验室,出任计算视觉首席科学家。

为什么会如此?

田奇对此解释说:

我在德克萨斯大学圣安东尼奥分校做了17年的老师,教的本科学生换了一批又一批,永远是18岁到22岁。

但我一直希望能够将我们共同做过的东西投入到真实场景中,看能不能给社会提供作用、发挥价值。

从中不难看出,其实在田奇的内心中,一直是有一颗科技向善的种子,他想把技术用起来,要让技术改变人们的生活、改善产业的运作。

当然,田奇所在的盘古大模型团队、以及“特战队员”们,也是拥有着同样的理想。

值得一提的是,团队在组建之后其实是在不断壮大中的,如今已包括3位华为天才少年、20多位博士、30多位工程师和50多位来自C9高校的参与者。

他们夜以继日地付出和拼搏,为的是一个共同目标:

引领工业化AI开发的新模式,降低AI使用的门槛,实现低成本、大规模的复制。

当然,除了田奇和他的队员们,盘古大模型的成功出道,同时也离不开华为云各部门之间的整体协作和付出。

最后,对于盘古大模型接下来的发展计划,田奇表示:

大模型不光是一个算法、架构这么简单,它实则是一个产品。

而一个真正的产品和一个模型之间,还有很长的一段距离。

这个里面牵扯到各个环节:如何持续打磨这个产品的质量,让它的用户体验、性能会越来越好。

以及在性能、体验提升的过程当中,又如何做到尽可能的减少碳排放,做到绿色AI,这也是田奇和团队要发力的地方。

……

那么华为云的科学家们,能带着固有的初心,将盘古大模型这个产品打磨到何种程度?

是值得拭目以待了。

BERT综述:

https://www.jianshu.com/p/4dbdb5ab959b?from=singlemessage

HDC直播:

https://live.huawei.com/hdc2021/meeting/cn/8283.html

以上是关于6个月火速炼成千亿参数大模型!背后是披荆斩棘的华为云哥哥们的主要内容,如果未能解决你的问题,请参考以下文章

华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

专家解惑 | 关于华为云盘古大模型,你想问的都在这里~

谷歌报复性砸出5620亿参数大模型!比ChatGPT更恐怖,机器人都能用,学术圈已刷屏...

募资22亿美元,全球最大加密基金a16z是怎样炼成的? |链捕手

技术创新:全球首个知识增强千亿大模型是怎样炼成的?

技术创新:全球首个知识增强千亿大模型是怎样炼成的?