观察云原生数仓,破茧而出

Posted 阿里云数据库

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了观察云原生数仓,破茧而出相关的知识,希望对你有一定的参考价值。


近期参加墨天轮社区活动,介绍数据分析(仓库)领域的一些变化趋势及新一代(基于云原生架构)数仓的出现如何解决现有数仓痛点。就在前两天,相信很多数据圈的朋友都被一条消息刷屏。云原生数仓的代表性企业-snowflake上市,市值高达700亿美金,惊爆眼球。其市值甚至达到老牌数仓领导性企业-Teradata的近30倍。缘何“云原生”概念如此火爆?正是人们看到这种新形态的巨大前景。下文根据分享内容整理而成,仅代表个人观点。



0 1
数据趋势变化分析

【观察】云原生数仓,破茧而出


新时期下,数据的存储计算上正悄然发生一些变化。从近期IDC、Gartner披露的数据来看,整体呈现出下列几个特点:

  • 数据规模爆炸性增长

    这一特点主要是由几方面原因造成,一是越来越多的数据被利用起来,包括之前已存在的但没被认为是无价值或低价值的数据正在不断被挖掘出来,例如用户访问网站的行为数据,过去仅仅留存作为审计等方面的要求被归档存储,但现在行为类数据正在被广泛地运用在运营、营销等领域;二是新业务形态也在催生很多数据,例如比较典型的IOT领域,大量的传感器数据被保存使用;三是已有应用对数据的使用程度也在加深,数据在企业经营中正在发挥更大的作用。正是随着不断膨胀扩大的数据规模,对数据的存储计算也提出了更高的要求。

  • 数据处理实时性增强

    数据价值会随着其实时性而不断衰减。新鲜、活跃的数据会为用户带来更大的价值。当数据经加工处理变为信息,进而汇聚为知识,指导企业的经营决策。先人一步,带来的优势不言自明。过去受限于底层平台的限制,数据往往需要采用批量离线方式进行处理,实时性要求无从谈起。在随着技术的演进发展,对数据实时性要求已能更好地得到满足,越来越多的业务会基于实时数据去构建。

  • 非结构化数据被更广泛运用

    如果说我们常见的结构化数据是露出水面的冰山的话,那大量的、隐蔽的非结构化数据就是冰山水面下隐藏的部分。非结构化数据一直是存在的,甚至是信息描述的主要方式。过去受限于数据处理技术的限制,非结构化的数据很难被加工处理,因而往往被人们所忽视。但随着技术发展,非结构化数据正在被更多利用到,过去被忽视的部分正在被不断挖掘出来。从数据也可见,非结构化数据的使用占比增长,是要远远高于结构化数据。

  • 数据正呈现加速上云的趋势

    过去的数据往往被保存在企业内部平台,随着IT基础设施上云的节奏加快,数据也逐步迁移至云端。数据从保存在企业内部到云端,不仅仅是数据存储位置的变化,而更多的是数据使用的特点的诉求所致。云端天然为数据带来的存储、计算的弹性能力,丰富的上下游生态集成能力,更灵活的共享使用方式,有保障的安全能力,均决定了数据上云这一趋势的必然。从简单的数据存储,到数据库无不呈现这一态势。

总结一下,新时期下数据的存储、计算正在朝着海量、实时、智能、云化的方向发展。


【观察】云原生数仓,破茧而出


从另一角度,也可以印证上面第4个观点。此图是同样来自第三方机构,数据的存储位置在公有云,还是传统的数据中心方式的占比分析。从图中可见,数据存储在IDC的占比不断下降,存储在公有云端的比例不断提升,两者在2020年达到一个拐点,并预测在此之后会差距会不断增大。也就是说,未来数据存储在云端是一种常见的方式。



02
数据仓库产品发展对比

【观察】云原生数仓,破茧而出


我们再从数据的常见载体—数据库做下分析。根据我们常见的两类数据应用操作型、分析型及数据结构特征关系型和非关系型,我们将数据库产品可按照这两个因素做个分类。下面我们重点讨论的是关系型的面对分析场景的产品,也就是图中的右上角象限。在这一象限内的产品,根据其发展特点可以简单分为两类:传统数据仓库和云(原生)数据仓库。

  • 在传统数据仓库领域,从右上角图中可见,主要是以国外大厂为主。这里面包括了IBM、Oracle、HP、SAP、EMC、TeraData等。在技术特点上,普遍采用了MPP、列存技术;输出形态上有纯软和一体机的方案。发展时间上主要集中在2005~2010年前后。

  • 在云(原生)数据仓库领域,从右下角可见,主要是以新兴云厂商为主。这里包括了AWS、Google、Microsoft等公司产品。其技术特点上,普遍在原有数仓的技术积累之上,与云端基础环境结合,输出形态为云端产品。发展时间上主要集中在2015~年后。


【观察】云原生数仓,破茧而出


针对上述两类产品,我们做个发展对比。下图是根据db-engines网站数据所得。这一网站的数据库排名,是按照搜索引擎搜索量+主流论坛访问量+相关职位招聘量维度,反映数据库的受关注程度。下图中列出了常见的数据分析产品,包括了传统数仓产品Teradata、Vertica(HP)、Netezza(IBM)为代表,云数仓产品Redshift(AWS)、BigQuery(Google)、ADW(Microsoft)为代表。这两类产品的发展趋势有明显的差异。前者的发展比较平稳,后者发展更为迅速。两者在2020年左右,在局部产品上已经出现的交叉。也就是说,在这一年上,对新兴数仓产品的关注程度,已高于某些传统数仓产品。



03
用户场景及需求变化

【观察】云原生数仓,破茧而出


从客户的使用场景来看,也如上图经过了阶段。

  • “报表”阶段

    从早期的以批处理和预定义查询为主,以报表为主要展现形式,辅助以少量的数据分析。此时的数据规模不大,并发量不高,以简单的数据库功能为主。其重点解决的是“发生了什么情况?”,主要是企业事后了解业务情况为主。

  • “分析”阶段

    到了这个阶段,固定的批处理与预定义报表依然占据主要部分,但动态的交互式分析占比增大。此时的数据规模有所增大,并发量因需满足即席查询需求而增大不少。这个阶段重点解决了“为何发生这种情况?”。这个“为何”也导致需查询明细类数据造成的数据规模的增大,导致探索类的查询造成不确定的(非预定义)的查询增加。

  • “预测”阶段

    到了第三个阶段,固定的部分大幅减少,即席查询类、分析类的部分大幅增大。这个阶段重点强调的是建模能力。有了模型之后,才会为预测提供可能性。此阶段应用的复杂度大幅增大,特别是灵活多变的模型对应用提出了更高的要求。此外,这个阶段还出现了少量数据更新及对变化部分的查询。这是与之前阶段比较大的差异。这个阶段重点解决了“将要发生什么?”。这个“将要”,正是模型带来的价值。

  • “运营支撑”阶段

    这个阶段没有太本质的差异,主要是对数据在变化情况下的实时性提出了更高的要求。数据的变化的实时捕捉、实时计算、实时反馈,成为运营支撑的基础。从技术上讲,对工作负载管理成为重点,如何避免不同工作负载的影响很关键。这个阶段重点解决了“正在发生什么情况?”。这个“正在”,正是体现了对实时性的要求。

  • “主动事件”阶段

    这个阶段首次提出了主动性的概念,基于事件的驱动方式为主动带来的可行。这个阶段的难点解决动态性能问题,基于事件的处理对于瞬时处理能力提出了更高的要求。这个阶段重点解决了“我希望发生什么?”,这里的“希望”,正是通过事件驱动来解决。


【观察】云原生数仓,破茧而出


我们再从“大数据”的角度去看看这个问题。这里所说的大数据,不是指一系列大数据技术,而是指大数据的最原始含义,即4V所代表的本意。在十几年前面对大数据这个场景,受限于当时的技术所限,不能很好地去解决这类问题。于是乎选择了一种新的技术路径来解决了。在一定时期内,这一方法确实解决了一定问题,但其不可避免也暴露出一些问题。例如技术复杂度高、没有统一规范标准、交互方式不够友好等。近些年来,大数据技术代表性的几个公司,在资本运营层面表现的很低迷,也一定程度上反映了大数据技术面临的问题。随着技术的发展演进,现在更趋向于用实时、标准的方式来处理,即所谓“Fast Data”方式。通过实时在线化的方式来解决上述问题。其更为强调对全量数据(而非增量)、实时数据(而非归档数据)、实时计算(而非离线计算)进行处理,同时提供按需可大规模扩展的能力。


【观察】云原生数仓,破茧而出


在新的环境下,用户对数据仓库的场景也呈现出一些新的特点。

  • 信创安可

    伴随着近些年来内外部的形式变化,针对基础平台国产化已经被更多提及。一方面是为了解决信息风险,增强自主可控;一方面解决国外产品潜在的退出风险。特别在某些重点行业、关键领域,上述已经成为刚需。一方面软件本身需要自主可控,另一方面还需要从底层兼容适配国产硬软件平台。

  • 技术风险

    为解决所谓“黑匣子”问题,需要通过开源或兼容开放的形式加以解决。过去国外产品的封闭状态,会将企业绑定在自己的战车上,这对企业很不利。

  • 降低成本

    如何降低企业使用数据的成本,可从几个方面来看待。一是软件本身的价格问题;二是良好的生态兼容性降低开发成本;三是资源弹性、冷热分离等技术降低使用成本。

  • 资源弹性

    这点主要为了解决企业对海量规模、多模数据的支持。

  • 平滑迁移

    很多企业之前已经构建有自己的系统,如何帮助企业从传统架构平滑迁移到新架构,是对新数仓的基本要求。企业不可能接受通过重建来实现。

  • 架构升级

    架构升级说明,现在的数仓升级需求不是一个苹果换桔子的过程,而是希望这一过程对企业带来更多业务增值。随着数字化转型的深入,企业对数据的使用也经历了从传统数仓到数据平台,再到数据中台的过程。数仓如何适应中台的要求成为刚需。



04
出路:云原生数仓破茧而出

【观察】云原生数仓,破茧而出


综上这些变化,新一代数仓解决上述痛点,云原生数仓应运而生。其通过核心优势(如上图)来帮助用户实现数仓转型。特别是在金融领域,随着国产化及降本增效趋势加剧,基于云原生架构的新一代数仓必将迎来更多机遇。



云原生数仓正是通过上述能力,解决自建或传统数仓系统的诸多不足。就如同云原生架构将重构整个IT基础设施一样,云原生数仓必将在数仓领域带来一场巨变。



文章来源:韩锋频道



点击 阅读原文 

以上是关于观察云原生数仓,破茧而出的主要内容,如果未能解决你的问题,请参考以下文章

云原生一体化数仓发布

云原生离线实时一体化数仓建设与实践

云原生实时数仓:柏睿数据底层技术绽放新生力

云化生长,火山引擎的“云原生”在讲些什么?

首次公开!阿里巴巴云原生实时数仓核心技术揭秘

云原生数仓如何破解大规模集群的关联查询性能问题?