重磅!2022年剑桥AI全景报告出炉,文本生成图像掀起新风暴!
Posted AI科技大本营
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了重磅!2022年剑桥AI全景报告出炉,文本生成图像掀起新风暴!相关的知识,希望对你有一定的参考价值。
作者 | Nathan Benaich、Ian Hogarth
编译 | 杨阳
出品 | AI科技大本营(ID:rgznai100)
日前,2022年《State of AI Report》新鲜出炉。
作为每年发布的AI报告,作者从研究、产业、政策、安全、预测五个维度对最新人工智能发展现状和未来预期进行了深入分析和说明。
报告囊括的技术范畴包括:AI、AI安全、机器学习、强化学习、深度学习、模型、自监督学习、语言模型、计算机视觉等。
这一年,AI的亮眼表现
研究领域
基于文本到图像的生成能力,扩散模型(Diffusion models)在计算机视觉界掀起一场风暴。
AI研究影响到更多科学议题,从塑料回收、核聚变反应堆控制,到发掘天然产品。
把标度法则重新聚焦在数据上:模型的尺度并不是所需全部,发展单一的模型,关键是要盯住数据。
社区驱动的开源大模型进展飞速,从而让这种小集体合作方式能够与大型实验室相竞争。
通过神经科学的启发,人工智能的研究方法开始越来越像认知科学。
产业领域
半导体初创公司在与英伟达等巨头的角逐中是否有胜算?统计数据显示,英伟达的规模领先20-100倍。
大型科技公司正努力扩张AI云,并与A(G)I初创公司建立合作。
招聘冻结、人工智能实验室解散,促使DeepMind和OpenAI在内的巨头企业成立了更多初创公司。
首个自主医疗成像诊断被授予CE标志。
AI最新的代码研究被快速转化为商业开发工具。
政策领域
学术界和产业界的鸿沟可能无法弥合,几乎没有什么工作是在学术界完成的。
学术界正在将它们研究工作交接给非传统出身,分散的研究群体。
在应用领域上值得注意的是,人工智能技术被持续应用在大量国防产品中,国防初创人工智能公司获得资本青睐。
安全领域
在AI安全的研究上,虽然人们的认知、人才的供给和资金的投入都在增长,但要提升这方面的能力并不容易。
哪些实现了,哪些没实现?
2021年的报告中曾对2022年作出8项预期,复盘来看哪些实现了,哪些没实现。
实现的预期中,包括取代RNNs的Transformers,在游戏中超过了人类的表现,取得这一成绩主要因为DeepMind的Gato模型可以预测未来的状态和行动。日内瓦大学的IRIS则解决了在Atari环境中设定的任务。此外,DeepMind在物理科学的研究上也有重大突破。
未能实现的预期:Graphcore、Cerebras、SambaNova、Groq、Mythic中至少有一家被大型科技公司或者半导体公司收购,实际上并没有发生。阿斯麦的市值也远没有达到5000亿美元,目前只有1650亿美元。
还有一些迟到的预期被验证。
比如2019年曾预期,人工智能的治理成为一个更大的问题,至少有一家主流AI公司会对治理及管理模式作出实质性的调整,Anthropic作为公益性公司的成立证明了这一点。
2020年预期英伟达最终没有完成对Arm的收购,在今年年初也得到验证。
最新研究成果和产业进展
在人工智能的研究领域,Deepmind这一年做出不少贡献,包括数学和材料科学。
Deepmind的研究人员同牛津大学、悉尼大学等院校教授合作,将AI应用于数学中的拓扑和表示论领域。在《自然》杂志的一篇文章中,通过研究纽结的结构,发现了数学在不同领域间隐藏的联系。
继通过强化学习击败最好的围棋和象棋人类选手后,AlphaZero被重新用作矩阵乘法的计算。
此外,自从开放源代码,DeepMind的AlphaFold 2已被数百篇研究论文引用。目前,AlphaFold 2 可以用来预测2亿种已知蛋白质的三维结构,包括植物、细菌、动物和其他生物。
与此同时,扩散模型在图像的生成上正在超越GANS,成为文本生成图像最先进的模型。在文本转视频、文本转音频,以及分子设计等领域也开始得到应用。
Stability.ai 和Midjourney两家公司所创建的文本转图像模型可以与已经发展成熟的人工智能实验室的产品相媲美。而通过这项技术,Midjourney实现了盈利,Stability则将其模型开源。
谷歌基于扩散模型的文本生成视频研究也在今年4月开启。之后,谷歌和Meta都宣称在这一领域取得重大突破。
Meta通过发布“Make-a-Video”,让扩散模型首次在业界产生轰动效应。紧随其后,谷歌发布了两个模型:基于扩散模型的Imagen和非扩散模型的Phenaki,后者能够通过附加提示动态调整视频的生成。
一项研究发现,LLMs的“超能力”能让机器人通过自然语言对每一个步骤的解释来完成各种任务。但由于对机器人所处环境和现实能力缺乏认知,LLMs的所谓解释就显得“鸡同鸭讲”。不过,PaLM-SayCan最终解决了这个问题,从机器人能够执行多样的、模糊的指令。
Transformer 作为一种解码器架构,影响力已经超出NLP,在计算机视觉上也发挥了高超水平, 正在成为真正的跨模态产品。
值得一提的是,自2010年以来,中国机构的AI论文撰写数量是美国的4.5倍。
在产业方面,英伟达通过在AI研究上的投资得以捆绑销售软硬件,从而获得收益。比如,通过强化学习设计的人工智能芯片 H100 GPU 就被业界所期待。
智能编码助手正在被快速部署,其中,OpenAI新创的机器学习工具Codex开启了开放商业化,从研究到商业化只用了11个月。被认为是“AI程序员”的GitHub Copilot以10美元/月,或者100美元/年的价格开放销售。其他包括亚马逊和谷歌在内的巨头公司也在快速布局这一领域。
国家间的横向对比上,美国的人工智能独角兽数量领先,其次是中国和英国。截至目前,美国有292家人工智能独角兽企业,价值合计达4.6万亿美元。中国有69家,总估值1.4万亿。
最后,两位作者对人工智能的安全性问题上也有不少思考。在他看来,伴随着人工智能的迅速发展,未来高性能系统的安全性仍然不够不明确:
“虽然许多担忧是推测的,但早期人工智能先驱们认为,未来高性能,与经济发展融为一体的人工智能系统可能会带来灾难性的失败,对人类构成威胁。”
对此,英国人工智能产业界首先承认这些潜在灾难的风险性。然而,尽管认知在提升,也吸引了更多的人才,资金也逐渐到位,但这些并不等同于防范能力的提升。所以,这一领域还需要各界提高重视。
以上是关于重磅!2022年剑桥AI全景报告出炉,文本生成图像掀起新风暴!的主要内容,如果未能解决你的问题,请参考以下文章