偶数科技：深入理解“湖仓一体”，避免错过最佳转型战略时机

Posted 2023-04-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了偶数科技：深入理解“湖仓一体”，避免错过最佳转型战略时机相关的知识，希望对你有一定的参考价值。

参考技术A

本月，阿里云在北京举办了 “2022 年阿里云数据存储生态发布会”，偶数科技作为目前国内云原生数据仓库技术领域的开拓者受邀参加了本次大会。

偶数科技首席架构师陶征霖作为演讲嘉宾，在会上与行技术仁共同回顾了分析型数据库的演进历程，以及目前偶数科技在 湖仓一体 方面的前沿理念和实践。

对此，陶征霖在会上重点介绍了湖仓一体 ANCHOR 六大特性： 实时 T+0、一份数据、超高并发、数据一致性、云原生、多类型数据支持 。通过 OushuDB 最新版本和架构的加持，偶数湖仓一体方案将在云设施上帮助客户发挥数据价值。

为什么“湖”+“仓”的分体模式不是最佳选择

随着近年来Hadoop 大数据平台建设逐步推广，企业开始尝试将 Hadoop 用于一些非核心场景，但 Hadoop 性能和并发支持有限，而且事务支持弱，交付、运维成本高，无法替代核心数仓，基本只能作为“数据湖”。为了满足用户在性能、事务等方面的要求，很多企业开始考虑数据湖和数据仓库互补的方式。在构建数据湖的同时，也使用MPP，湖仓各自独立部署，数据通过ETL的方式打通。

这就是业内常说的 Hadoop+MPP 的"湖仓分体"模式。

尽管这种模式能够让湖和仓有很好的技术特性互补，但同时它也会产生经常让企业感到困惑的严重问题，包括：

这些常见的状况更让从业者头疼不已。要解决这些问题，必须实现数据和查询层面形成一体化架构，彻底摆脱大数据平台遇到的这些瓶颈，这样可以大大降低 IT 运维成本和数据管理的技术门槛。

OushuDB存算分离的湖仓一体模式有何不同

那么，基于OushuDB存算分离的湖仓一体模式与Hadoop+MPP 的"湖仓分体"模式有何不同呢？

偶数科技研发的全球最快的新一代分析型数据库引擎OushuDB创新性的采用了存算分离的云原生架构。作为一个崭新的数据平台架构，存算分离架构可以保证存储和计算可以独立的弹性扩展和伸缩。

而传统 MPP 和 Hadoop 都不适应这样的要求：

另外，为了同时满足实时流处理、实时按需分析和离线分析需求，偶数科技独创性的探索出了Omega全实时数据处理架构，相比于传统的Kappa架构、Lambda架构优势明显。

可以说，OushuDB基本解决了"湖仓分体"的技术瓶颈，技术优势相当显眼：

湖仓选型，ANCHOR先行

偶数科技认为，要真正的解决业务的痛点，选择企业适合的湖仓产品，我们可以按照前面提到的ANCHOR 标准来选型。ANCHOR 的6个首字母分别代表六大特性：

行业的认可与偶数的持续突破创新

自偶数科技诞生以来，偶数科技的产品和解决方案也已在非银金融、电信、政府、能源、制造和互联网等行业中被广泛的部署和应用，帮助多个行业中的企业小步快跑，进行数智化转型。同时，作为在数据库领域的领先创业，其商业模式的可行性与成长性也得到了资本的认可，连续获得了国内顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资。

在大数据的常见客户行业中，银行业是对应用的自主可控、高可用、高可靠性的要求最高的领域之一，偶数科技解决方案在银行业的落地正是其技术实力和对用户痛点理解力的明证。早在2020年，偶数科技就与建设银行成立了高性能大数据联合实验室，共同探索湖仓一体化的实施路径。经过持续的技术探讨与应用验证，二者合作开发的基于云原生数据库技术的全实时湖仓一体方案，采用了一套技术栈、统一存储进行湖仓双重能力建设，已具备极速性能、弹性伸缩、计算资源按需分配、全量数据单一存储、无须频繁导数、混合负载等相关能力，能够充分建设银行及其客户的实时应用场景，帮助建行提升了实时需求响应性能、增强了系统弹性，同时节约运维成本。

近期，偶数科技正式入选国家级专精特新（专业化、精细化、特色化、新颖化）“小巨人”企业名单。作为助力国家突破关键技术领域“卡脖子”难题的初创企业，偶数科技在数据库国产化、技术自主安全上的努力正在被逐步验证、得到国家层面的肯定。

随着未来物联网、工业互联网的逐步建立，大数据领域将面临越来越广的数据来源、越来越大的数据量、越来越多的非结构化数据、越来越丰富的应用场景和越来越复杂的技术栈，大数据处理和分析的难度将进一步提升。从上世纪60年代的数据库，到数据仓库、数据湖，到现在的湖仓一体，新产品总是在性能、功能上去解决以前从业者在业务上的痛点，我们可以说湖仓一体是数据库发展到云原生时代的必然产物。

通过虚拟计算集群技术在数十万节点的超大规模集群上实现高并发，保障事务支持，提供实时能力，一份数据再无数据孤岛，新一代湖仓一体架构将是未来的发展趋势。偶数科技作为湖仓一体化领域的领导者，也将持续优化技术，为用户带来更高性能、更稳健的解决方案，支撑更多行业用户将数据转化为生产力。

偶数科技：基于OushuDB的新一代云原生湖仓一体为企业助力

实时性数据分析需求暴增，偶数湖仓一体为企业助力

在愈发复杂的大数据场景下，数据仓库与数据湖各自的弊端开始显现，湖仓一体架构走向舞台中央。在国外有两种流行的实现数据湖仓的技术，他们分别是基于数据仓库和基于数据湖的解决方案，他们的代表分别是Snowflake和Databricks。去年11月，双方曾就两者性能差异吵得不可开交，作为大数据分析赛道的代表性厂商，不论是具备数据仓库功能的数据湖工具Databricks，还是借鉴数据湖范式的可扩展数据仓库Snowflakes，其发展路线都说明“湖仓一体化”已成为了目前市场主流的技术发展方向。

虽然业界对于湖仓一体的价值是高度认同的，但作为一种新兴的架构，大多数公司对于湖仓一体仍处在初期的探索阶段，有些企业甚至对于要选择怎样的湖仓一体架构仍旧是云里雾里。很多人难免会问，我们到底需要什么样的湖仓一体？

1 当下企业实时性数据分析需求暴增
随着网络的高速发展，产生的数据也爆炸性增长，企业对数据的使用也逐步从离线场景到实时数据分析场景的转变。刚开始，很多企业主要是利用离线场景对历史数据进行分析，而随着业务发展到一定规模以后，离线数据的缺点就愈发凸显，公司的业务方、决策方对实时化数据提出了更高的诉求，希望从业务端获取到数据以后，便能够立即被清洗处理，从而满足基于数据的事前预测、事中判断和事后分析。

实时数据分析的需求场景一般分为四个层面：

运营层面：实时业务变化、实时营销效果、当日业务趋势分析；
用户层面：搜索推荐排序、实时行为等特征变量的生产，为用户推荐更精准的内容；
风控层面：实时风险识别、反欺诈、异常交易等；
生产层面：实时监控系统的稳定性和健康状况等。
不难发现，无论是互联网企业还是传统企业，数据的时效性都被摆在了重要位置，甚至有些企业已经从 PV、UV 指标等单点实时化进阶到了全面实时化的阶段。也正于因此，数据的时效性也就成为了企业判断自身架构设计是否满足真正湖仓一体的关键因素。

总体来看，企业到底需要怎样的湖仓一体架构？除了要满足实时化数据需求这一关键要素以外，数据一致性、超高并发、云原生、支持多类型数据以及一份数据也被列入了湖仓一体的 ANCHOR 六大特征。

2 基于OushuDB的云原生湖仓一体
如前文所言，随着市场竞争和用户需求的不断变幻，企业对于数据的时效性需求不断攀升，但实时数据的分析场景出现以后，也给数据技术的实现带来了很大的挑战。目前，无论是擅长事务型工作的数据仓库，还是数据类型更为丰富的数据湖，亦或是 Hadoop+MPP 模式下的湖仓分体，其都是基于 T+1 设计的，即便引入了流处理引擎实现了部分固定模式的实时分析，仍无法达到 T+0 全实时的水平。

为了让数据实现全面实时化，行业内也衍生出了不同的湖仓一体方案，可以将其大致分为两类：一类是基于Hadoop 的改造方案，拿 Hudi、Iceberg 两款开源数据湖项目为例，结构化、半结构化及非结构化的数据通过SparkSQL/Flink 引擎不断流转与计算，再基于 HDFS/S3 实现事务存储，但此类方案在性能支持上与 Hadoop 的区别并不大；

另一类则是从新的基础架构发展出的云原生数据仓库，其中比较典型的代表有 Snowflake、OushuDB 方案，二者均突破了传统 MPP 和 Hadoop 的局限性，实现了存储和计算的完全分离，并且通过虚拟计算集群技术，其单个集群可以达到数万节点，同时在复杂查询性能和 SQL 兼容性上也非常完善。在国外，Snowflake 可以算作落地湖仓一体的成功先例之一，而偶数科技围绕 OushuDB 提出的湖仓一体解决方案，也成为国内该赛道中的一颗耀眼的新星。

若想了解 OushuDB 性能的强大之处，我们大抵可以从以下这组公开数据中窥知一二：由于 OushuDB 使用了SIMD（单指令多数据流）的执行器优化策略，其全面性能超过 Spark 性能相差 8 倍以上，最大相差 55 倍。通过横向对比几类湖仓一体解决方案，我们发现，在 T+0全实时方面，基于 OushuDB 的方案也展现出了较大的优势。

3 为什么偶数科技的实时湖仓性能卓越？
那么问题来了，偶数科技是如何实现具备实时能力的湖仓一体架构？我们可以先从 Lambda 以及 Kappa 这两种典型架构的优劣说起。

为了能够让流处理与批处理配合使用，Lambda 架构应运而生，基于这套架构，任务可以根据是否需要被实时处理进行分离，然而，这套架构背后也隐藏了很多问题。首先，离线和实时两套方案会产生不同的计算结果，当发生数据产生不一致问题时，对比排查需要花费较长时间。此外，由于 Lambda 架构由多个引擎和系统组成，其学习成本、运维成本也相对较高。

可见，Lambda 架构在开发割裂感、资源重复、集群维护成本以及数据一致性等问题上存在较大的问题。为了解决 Lambda 架构需要维护两套代码的难题，Kappa 架构又出现了，即在 Lambda 架构的基础上移除了批处理层，利用流计算的分布式特征，加大流数据的时间窗口，统一批处理和流处理，最终处理后的数据可以直接给业务层使用。相比之下，虽然 Kappa 架构的优点显而易见，但其也存在以下两方面的缺点：

依赖 Kafka 等消息队列来保存所有历史，而 Kafka 难以实现数据的更新和纠错，发生故障或者升级时需要重做所有历史，周期较长；
Kappa 依然是针对不可变更数据，无法实时汇集多个可变数据源形成的数据集快照，不适合即席查询。
面对 Lambda 架构与 Kappa 架构的局限性，业内也亟需一种新型技术架构来满足企业的实时分析需求。为此，偶数科技在 2021 年初提出了同时满足实时流处理、实时按需分析以及离线分析的 Omega 架构，其是根据流数据处理系统和实时数仓构成的。

需要强调的一点是，在 Omega 架构中需要变更流处理版本时，不再需要流处理引擎访问 Kafka，直接访问OushuDB 即可获得所有历史数据，这样一来，便规避了 Kafka 难以实现数据更新和纠错的问题，大大提升了数据处理的效率。在 Omega 全实时架构的加持下，偶数科技实现了具备实时能力的湖仓一体，即实时湖仓。

4 行业的广泛认可与偶数的持续创新
尽管OushuDB只是一个诞生5年的云数据库，但OushuDB却是由国内顶尖工程师自主开发，其研发团队曾主导国际顶级的数据库开源项目，符合国家信创标准。偶数科技作为一家新兴的数据库公司，自2017年诞生以来，作为微软加速器和腾讯加速器成员企业，已经获得世界顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资，并入选福布斯中国企业科技 50 强以及美国著名商业杂志《快公司》中国最佳创新公司 50 强。

除了OushuDB，偶数科技的实时湖仓一体解决方案还包含自动化机器学习平台 LittleBoy 、数据分析与应用平台Kepler以及数据管理平台 Lava等多个产品，深厚的研发实力和优秀的产品性能吸引了广泛的知名用户群，目前已在金融、电信、制造、公安、能源和互联网等行业得到广泛的部署和应用。

以上是关于偶数科技：深入理解“湖仓一体”，避免错过最佳转型战略时机的主要内容，如果未能解决你的问题，请参考以下文章

数字化转型浪潮下，湖仓一体如何支撑企业走向数据智能

湖上建仓全解析：如何打造湖仓一体数据平台 | DEEPNOVA技术荟系列公开课第四期

万字详解数据仓库数据湖数据中台和湖仓一体