CAA智库阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

Posted 中国自动化学会

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CAA智库阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合相关的知识,希望对你有一定的参考价值。



CAA


智慧起航,共创未来


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

本文将分享大数据和AI技术在云原生分布式数据库系统的融合和发展,介绍数据库系统和大数据系统新的发展方向以及自动化控制理论、人工智能理论、大数据技术在系统中的融合和发展。

一、企业级系统架构的突破:云原生+分布式


首先是业界趋势,近几年有一个非常明显的趋势,即各种各样的数据类型在爆发性增长,不仅仅表现在数据规模在增长,数据类型也从传统的结构化数据向多元异构数据的方向发展,例如文档、图片、视频等,如图1所示。越来越多的应用也希望能够实时处理数据,因为数据实时处理十分重要。根据IDC、Gartner等业界权威分析机构的报告和预测,大概在2023-2025年50%的数据都会在云上进行处理,75%以上的数据系统都会在云上的环境里面进行运行。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图1 业界趋势

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图2 数据库与大数据系统的发展历程


回溯数据库与大数据系统发展的历程,如图2所示。从商业数据库起步到开源数据库,再到传统的数据仓库等,再到后来出现了以Google为代表的大数据系统(GFS对应开源的HDFS、Google Big Table对应开源的HBase、Google MapReduce对应开源的Hadoop),直到今天云计算架构催生了云原生的数据库和大数据系统。这个发展历程本质上是对结构化数据的在线处理,再到海量数据分析,再到多元异构的数据处理以及细分的数据系统的过程。


云计算的本质是用虚拟化的技术将资源池化,计算机有两类资源即计算资源和存储资源,用一个生活中的例子来比喻,云计算就像是家家户户打一个水井,水井是服务器,打多宽、多深跟业务负载和容量有关系,每个家庭的水井的宽度和深度和其家庭人数是紧耦合的,就像传统计算机服务器架构里面的计算和存储也是紧耦合的。但是打水井这个模式在计算发展到一定程度以后,业务负载发展到一定程度后存在很大缺陷。因为平常家里4、5个人,但偶尔有一天来很多人,给4个人打的水井就会不够用。如果按照业务峰值20个人打水井,大多数时候资源是浪费的,这是传统的紧耦合的方式。针对这个问题,有两种解决方案,一种是分布式,把100个给4-5人用的水井连起来,通过分布式协调机制来处理。还有一种是云原生的使用方式,在下面把资源打通,虽然看着是100个独立水井,但下面是一个共享的暗的池塘,每个水井对应下层是池化的资源,可以很好的满足对于资源的弹性使用方式。因此,对池化资源的调度,对资源的预测、智能化的控制十分重要。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图3 关于美国Snowflake的例子


数据库在其中起到了极其重要的过程,它是一个对数据到产生到处理到存储到消费全链路的过程,将两者结合起来之后有一个明显的趋势,数据计算处理分析的一体化,希望将资源池化、存储计算分离,在其中以云原生和分布式为基础,增加弹性和高使用以及智能化运维的能力。今年九月份,美国Snowflake不到两周,其市值达到700亿美金,它能在短时间内达到如此高市值的原因之一就是它进行云原生的资源池化、计算存储分离以及用人工智能和机器学习的理论进行更高效的弹性调度和控制,更高效的使用有效的资源,实现对数据处理分析的一体化,大数据和数据库的一体化并对非结构化数据和结构化数据进行融合处理,除此之外其还具备多云部署的能力。


如图4所示的全球数据库的市场格局,云计算给市场带来了赶超传统的数据库厂商的新的机遇。例如阿里云数据库的营收已经排到全球云数据库市场第三,公共云营收占中国市场的50%,且云上及线下的收入已超过Oracle在中国市场的营收。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图4 全球云数据库市场格局

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图5 Gatner报告


再看权威的Gatner报告,如图5所示,数据分析处理一体化是大势所趋,数据库系统不仅仅需要做在线交易,在线交易即确保例如账户的资金等的增持和减少的交易过程完全无误,数据库系统还要做大量的数据分析和计算,例如今天上海市多少人去过一个分行做了哪些处理。传统的方式有数据库系统、有大数据系统、离线计算,它会将处理和分析分开。但目前出现越来越多的数据处理分析一体化需求,Gatner已经提到将传统的DMSA(Data management Solution for Analytics)和OPDBMS(Operational DBMS )合二为一成为一个Cloud DBMS市场,并且断言Modern DBMS can do both and there is only one Cloud DBMS market。


传统的数据库厂商Oracle的商业模式是售卖license,但其现在已经开始涉入服务云化的领域,Oracle的部署方式也在向云化方式转变,如图6所示,其对标的产品也已经是业界如AWS亚马逊云的Aurora和Redshift等云原生数据库和云原生数据仓库,而不是传统的SQL Server等商业数据库。如图7所示,SQL Server去年年底推出了SQL Server Big Data Cluster,即将类似SQL Server这种事物型的、交易型数据库和大数据的Spark集群合二为一,将数据处理分析一体化是业界的整体趋势。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图6 市场洞察与研判:Oracle

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图7 Azure SQL Server


无论是数据库还是大数据系统,本质上有三种系统架构,如图8所示。其中一种架构是传统的经典的资源紧耦合的架构,即打水井的模式,其中DB代表CPU和内存,它是一个资源紧耦合的方式,本地存储和计算紧耦合在一起,如果需要更多处理能力的时候,需要将部署的服务器台数进行倍数扩充。其带来的挑战是有时候只需要扩充存储而不需要扩充计算能力,或只需要扩充计算能力,不需要扩充存储能力,但是由于资源紧耦合,两者需要一起被扩充,这会带来资源使用效率低下的问题。另外还需要对业务负载进行准确的评估,才能部署恰到好处的资源,但实际的业务系统需要对在线业务系统负载的准确率评估,动态的分配足够的恰当的资源来满足业务负载的需求,而传统的资源紧耦合不能满足该需求。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图8 数据库系统架构演进


另外一种架构即利用shared-nothing的分布式架构可以较好的解决上述问题,分布式架构带来的好处是资源可以水平拓展。但分布式架构的问题在于,当分布式系统足够复杂后,分布式节点之间的控制、协调会变得越来越复杂,尤其当数据分布分区和业务访问逻辑不一致的时候,如何保证高一致性和高性能处理成为一个关键瓶颈。云原生的架构本质是将资源池化实现shared-everything共享状态,即其看起来是一口独立的水井,但是底下连通的不仅仅是一口水井的资源,而是将100个或者更多的水井连成了一个暗池,底层是分布式共享池化的资源。充分的发挥分布式的优点,但是利用共享池化的技术来实现分布式的透明部署实现高可用、弹性、灵活部署等。另外将计算、存储分离,完全解耦,可以大大提高系统的可用性,云原生和分布式架构下对资源的使用、调度变得十分关键,合理调度资源才能保证资源的高效使用。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图9 下一代企业级数据系统


如图9所示,下一代的企业级数据系统可能会将两者结合起来,上层是分布式架构,下层的每一个节点是资源池化、云原生的架构,两者融合将其优点结合起来,即将水平拓展和弹性、高可用的能力结合起来为用户提供更加高效的服务。


目前,如图10所示业界有以下几个趋势,大数据与数据库一体化,即行列混存+混合负载+分布式计算与分析;云原生+分布式,即CPU/内存/存储/分离+分布式处理;智能化,即自感知+自决策+自恢复+自优化;Multi-Model多模数据处理;软硬件一体化,充分发挥新硬件的优势;除此之外,还有安全可信技术,即可验证日志与计算+全链路加密,安全可信的技术对系统来说也尤为重要,因为系统也要面临安全方面的挑战。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图10 下一代企业级数据库关键技术


二、大数据与数据库系统的一体化


可以将传统的数据库与大数据系统分为以下几类:在线查询分析例如传统数据仓库,离线的ETL和计算,例如Spark、Hadoop等以及复杂分析的在线加速,例如presto等,用户需要在不同的系统中进行数据的迁移转换,十分复杂。基于此,我们希望下一代的数据系统可以支持实时在线的增删改查,可多维度查询分析和ETL计算等,在一体化系统中实现对数据的全链路管理,如图11所示。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图11 下一代数据分析系统的核心理念:一体化设计


几个具体系统架构的例子如图12所示,例如云原生关系型数据库PolarDB,本质上使用RDMA高速的远程访问网络构建了一个分布式共享存储池,在其中做了高可用三副本,数据自动三副本存储,可提供金融级高可用的能力,任何一个节点的失败不会影响系统对数据的访问。上层是计算的池化,设置多个计算节点,其中使用了大量的分布式技术,但上层应用做到了透明的集中式部署,所有的控制都通过上层的Proxy节点来进行负载均衡、读写分离、实现分布式共享存储访问等。另外其对存储和计算进行了解耦,而不是像传统架构紧耦合在一起,可以对存储和计算节点独立的进行分钟级自动缩扩容;另外其还具备高可用的能力,对应用部署和运维进行极大的简化。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图12 云原生关系型数据库

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图13 云原生数据仓库

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图14 HTAP+离在线一体化


在分析领域,阿里云推出了云原生数仓AnalyticDB(ADB),架构图如图13所示。其本质上具备海量化、弹性、轻量化部署等特点。如图14所示,自主设计的云原生数据仓库ADB取得了TPC-DS/TPC-H世界性能性价比第一,其主要特点是存储池化、计算池化、计算存储分离,可以从一个节点快速扩充,拉起到几千个节点,也可以快速的缩回到几个节点,并且支持离在线一体化的分析,可以做到对计算按时按需按量使用、弹性高可用,且支持离在线一体化分析。


另外一个概念是数据湖,即多源异构数据的计算分析处理一体化,如图15所示。从本质上来讲,不少应用不希望像数据仓库或者传统大数据系统一样将系统数据从原来的不同的存储节点和格式迁移到统一的存储引擎,而是希望数据存在其原来所在的地方,例如在文件系统里面、在数据库系统中,但在数据系统中需要有一个统一的访问、计算和处理的界面来统一的管理多元异构的数据源,其中有一个核心的概念—一键建湖,通过元数据管理模块自动发现和管理多源异构数据,同时通过云原生的serverless技术对多源异构数据进行低成本、弹性的统一计算分析和处理。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图15 云原生数据湖


三、人工智能与大数据、数据库的深度融合


智能化技术在大数据、数据库系统的融合在快速发展。以深度神经网络为代表的人工智发展到今天,特别是深度神经网络会协助大数据、数据库系统管理海量数据,如图16所示。阿里巴巴有复杂业务海量的数据,需要管理海量的数据库与大数据系统实例,但希望用尽量少的资源,包括机器资源、人力资源自动化管理所有的系统,进行自动化智能调参。其本质是对系统参数的在线优化和自动化的调整,和自动驾驶汽车从本质上来说没有任何区别,自动驾驶汽车是调整方向盘,调节刹车油门的开度,数据库系统也类似,实际上也是对各种参数的控制。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图16 人工智能促进大数据系统的发展


阿里云在云原生平台基础上构建了如图17所示的云原生+智能化数据库管控平台,图中下层部分是系统的架构图,对所有实例实时监控实例的关键性能指标、数据进行建模,对模型进行在线的更新,其中使用了深度神经网络,传统控制学理论,统计的方法、建模的方法和深度神经网络的方法结合起来进行实时的参数调整。在不影响系统运行性能的情况下,对数据库系统的动态调整,对海量的内存空间进行调整,平均每天可节约几十TB的内存,在内核中进行自动的冷热分析、非结构化数据的结构化处理,可以做到自动优化、自动安全保护和容量的自动管理。其具体上线的应用,如图18所示的阿里巴巴线上数据库智能自动驾驶平台,实时管理上万个数据库实例内存大小,根据用户业务负载的变化,动态调整内存的大小,平均每天可以节省接近20%的内存消耗,20%的内存消耗相当于每天可以节省上千万的使用成本。如图18所示,上层是系统实现框架,下层是逻辑控制图,与经典的控制系统,自动化系统中的控制理论如出一辙。自动驾驶数据库如图19所示。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图17 云原生+智能化数据库管控平台

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图18 Alibaba线上数据库智能自动驾驶平台


除了上文所述的数据库参数动态调整之外,还可以进行冷热数据分离,智能化压测等工作。无论是自动化系统还是数据库系统,系统压测都是十分重要的一环,智能化生成与实际负载一样的压测数据一直是一个核心挑战。最暴力的系统压测方法是将系统接入真实业务系统进行压测,但如果没有百分之百的把握可能会给在线生产系统带来严重后果,而智能化的方法可以生成与真实业务负载一模一样的负载来对系统进行压测,而减少在线生产系统风险,除此之外还可以进行异常检测、索引推荐、智能化分区、自然语言查询等,大大降低在线业务系统的风险,提升系统的整体使用效率。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图19 自动驾驶的数据库系统


四、总结


今年疫情对各行各业都带来了挑战,如图20所示,疫情带来的挑战是业务的负载和变化越来越波动性,很多业务从线下搬到线上或者线下线下混合的模式。以在线教育为例子,例如好未来、猿辅导等在线教育、以及包括正常的中小学、大学的教育,教育行业越来越向线上线下融合,其系统一定会存在越来越明显的波峰波谷的变化。在这种情况下如何对资源进行准确评估,如何进行高效调度、智能化控制变得越来越重要,在安全可靠的前提下提升资源的使用率变得越来越重要。今天的云原生技术、大数据技术在数据库系统将深度融合,帮助我们更好解决类似问题,应对疫情的挑战并解决类似的挑战。


在云计算的时代,大数据、人工智能和可信技术深度融合,除此之外,安全可信非常重要,包括系统架构的突破:云原生与分布式的结合;大数据与数据库的融合:计算分析与查询数据处理一体化/HTAP;人工智能与大数据、数据库的结合:智能化内核与管控;安全可行技术与数据库和大数据系统的深度融合。希望能够将自动化的技术、控制的技术和计算机的大数据、人工智能技术进行深度融合。


【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

图20 疫情带来的挑战


(本文根据作者在2020中国自动化大会上所作报告速记整理而成)


作者简介:


李飞飞,阿里巴巴集团副总裁, ACM杰出科学家。阿里云智能事业群数据库产品事业部与达摩院数据库与存储实验室负责人。曾获ACM与IEEE以及其他多个奖项,获ACM SoCC 2019最佳论文奖runner up, IEEE ICDE 2014 10年最有影响力论文奖, ACM SIGMOD 2016最佳论文奖、ACM SIGMOD 2015最佳系统演示奖、IEEE ICDE 2004最佳论文奖、世界互联网大会2019全球领先科技成果奖,浙江省科技进步一等奖、中国电子学会科技进步一等奖等。带领团队研发了阿里云企业级云原生数据库系统包括云原生关系型数据库PolarDB、云原生数据仓库AnalyticDB、云原生数据湖分析DLA、云原生多模数据库Lindorm、云原生智能化管控平台、数据库生态工具等。担任多个国际及国内一流学术期刊和学术会议的编委、主席。中国计算机学会CCF大数据专家委员会副主任,数据库专业委员会常委。担任多个国际一流学术期刊和学术会议的编委、主席(VLDB 2021与IEEE ICDE 2021工业界主席)。


来源:大会组委会

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合


 往期文章    


   联系我们      

邮编:100190

          010-62522472(会员)

          010-62522248(学术活动)

          010-62624980(财务)

传真:010-62522248

邮箱:caa@ia.ac.cn


 更多精彩   

名称:CAA OFFICIAL

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合

名称:CAA会员服务 

【CAA智库】阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合
      
        
        
      




 
   
   
 


 
   
   
 

以上是关于CAA智库阿里巴巴集团副总裁李飞飞:智能化和大数据与云原生分布式数据库系统的融合的主要内容,如果未能解决你的问题,请参考以下文章

阿里云李飞飞:什么是云原生数据库

对话李飞飞,展望阿里云与MongoDB战略合作未来

李飞飞:云原生分布式数据库面临哪些机遇与挑战?

对话李飞飞,揭秘国际体育赛事风“云”背后的黑科技

对话李飞飞,揭秘国际体育赛事风“云”背后的黑科技

李飞飞演讲实录 | 云原生数据库2.0:一站式全链路数据管理与服务