阿里云峰会现场探班，“一云多芯”技术强在何处

Posted 2021-06-17 beyondma

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了阿里云峰会现场探班，“一云多芯”技术强在何处相关的知识，希望对你有一定的参考价值。

“韩信点兵，多多益善”，目前云平台能管理的节点已经越来越多了，但是跨CPU架构的不同节点进行统一管理还是一个业界的难题，这几天笔者现在观看了阿里云峰会，并全程参与了CSDN的线上探班，参会之余个人认为阿里云智能总裁张建峰发布了“一云多芯”是今年以来云计算发展史上最具有革命性的技术之一，在“一云多芯”的模式下，飞天云操作系统可以将服务器芯片、专用芯片等硬件封装成标准算力，无论底层是X86、ARM还是RISC-V，给客户提供的都是标准的、高质量的云计算服务。

以往云操作系统只能对一种架构的CPU进行硬件细节屏蔽，比如英特尔X86不同CPU的型号可以组成一个集群，云上的租户在使用云服务时不会感受到实例到底使用什么型号的CPU。但是如果你的云平台上又有X86又有ARM，那么就只能用两朵云分开管了。之前以X86为代表的CISC处理器主攻服务器和云计算机市场，而以ARM、RISC-V为代表RISC处理器主攻移动与物联网终端，两者基本井水不犯河水的。不过最近形势发生了变化。

开启新大门的RISC

英伟达在发起收购ARM之后，如期在4月的新品发布会大会上如期拿出了首款CPU芯片Grace，由于ARM使用RISC风格的精简指令集， ARM核心在指令预测等方面同天然比X86更有优势，能耗也比X86更低。当然这些都是ARM相对于X86的传统优势，本次Grace最大的创新点在于把CPU与GPU之间的通信速度提升了近10倍。根据黄仁勋的说法，“这是一万名工程人员历经几年的研发成果，旨在满足当前世界最先进应用程序的计算需求，其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。”

从最新的AI发展趋势来看，最新的人工智能模型对于算力的要求往往都是非常高，比如那个可以自动写代码的GPT-3其参数规模突破了1000亿，阿里摩院的发部的GPT-3中文版本PLUG参数规模也旗鼓相当，而GPT-3的变种可以将文字描述转化为图像的跨模态生成模型DALL.E，其整个模型的参数数量更是超过 1500 亿，达。不少科学家直接指出，越大的模型往往表现更好，扩大规模可能仍然是实现更好性能的方式。用黄仁勋在发布会上的话来说“三年间大规模预训练模型的参数量增加了3000倍。我们估计在 2023 年会出现 100 万亿参数的模型。”可以说随着模型越来越大，普通的创业公司只有通过AI云才能使用到最新、最好的AI模型，因此笔者个人认为N厂Grace所先把的技术路线完全正确。

令人难以割舍的X86

但是英特尔最新发布的至强三代Ice Lake芯片中的安全计算指令集SGX也同样令人难以割舍，多方安全计算对于笔者这种长年在银行业工作的人来看绝对是面向未来的黑科技，所谓多方安全计算的应用场景可以百万富翁问题来表述，假如两个百万富翁街头邂逅，他们都想炫一下富，比比谁更有钱，但是出于隐私，都不想让对方知道自己到底拥有多少财富，如何在不借助第三方的情况下，让他们知道彼此之间到底谁更有钱？针对这个问题，在上世纪80年代，清华大学的姚期智院士提出了解决方案，并因此获取了图灵奖，从理论层面证明了多方可信计算问题的可行性。

但在实践层面多方安全计算依然困扰业界，尤其在笔者所在的金融行业更是如此，通常来说金融机构都有很多非常具有价值的数据，但是怎么发挥数据的价值却让各大银行犯了难，就算有宇宙行之称的工商银行，市场占有率也不到10%，单靠他们一家的数据训练不出特别好的模型，而把各大银行的数据都拿出来共享吧，又有客户隐私泄漏的风险。如何在不让其它参与者看到真实数据的情况下进行计算，把姚期智院士的解决方案落地，就成了一个难题。

在这个经典问题之下，目前只有蓝象智联的GAIA CUBE等少数几个平台能够做到让数据在不泄露的情况下联合多方的数据进行联合计算并得到明文计算结果，实现数据的所有权和数据使用权的分离，而且这还都是基于区块链软件技术机制保证安全可信。

而英特尔至强三代支持的SGX则从硬件角度彻底让用户打消顾虑，安全计算实际是给计算机加了一个安全密室，即使拥有最高权限的特权管理员也不能进入安全密室，更无法在安全密室前布放监控。安全密室与外界的一切交互全部要经过加密并进行完整性校验。

其实英特尔在几年前就已经实现了SGX技术，但当时SGX能创建的内存空间只有128M，而目前的AI机器学习模型动辙要上百M，大的甚至要几十上百个G，当时的SGX根本放不下这样的模型，无法在多方安全计算中使用。不过这次Ice Lake-SP最高可以支持1T的安全空间，这种程度的提升将全面拓展SGX的应用场景，比如腾讯就联合北京微芯边缘计算和区块链研究院，将区块链与SGX结合，保障数据安全性，做到最终数据可用不可见，从而打破目前各机构边缘之间的数据孤岛，发挥数据的最大价值。

一统江湖的一云多芯

那么现在的问题是，最终用户的需求往往是既想要英伟达ARM芯片的AI推理能力，又想进行X86的安全计算能力，如果按照以前的方案就必须要进行多云协同了，必须为ARM集群和X86集群分别建设存储与网络的配套设备整个云体系才能正常运转，不但会浪费一定资源还会带来多云协作的管理问题，而阿里云最新的一云多芯的方案，其实就是用一套云操作系统来管理不同架构的硬件服务器集群，它最大的特点就是可以将不同架构CPU的算力标准化，从而解决从根本上解决不同类型CPU共存所带来的多云管理问题，当然我们看到后续阿里云还会继续前行，真正做到从云操作系统的底层将不同CPU的算力标准化出来，也就是说如果除了某些特定的如安全计算等与具体架构绑定太深的需求以外，其余需求均可以在云的标准化资源池内得到满足。

以上是关于阿里云峰会现场探班，“一云多芯”技术强在何处的主要内容，如果未能解决你的问题，请参考以下文章

一口气了解2021 阿里云峰会重磅发布

一云多芯,阿里最新发布自研CPU芯片倚天710

Apsara Stack 技术百科 | 标准化的云时代：一云多芯

阿里云混合云的政企上云新路径

Apsara Stack 技术百科 | 标准化的云时代：一云多芯