云原生数据湖是什么?
Posted c++服务器开发
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了云原生数据湖是什么?相关的知识,希望对你有一定的参考价值。
最近几年,"数据湖"正在被越来越多人提起,尽管各方对数据湖的定义并不统一,但这不妨碍企业纷纷下水实践,比如亚马逊、阿里、腾讯、华为等,都在探索建设数据湖。为何众多企业在"数据湖是什么"上还没有达成共识的情况下,就开始着手进军数据湖领域呢?一个可能的原因是,数据湖将代表大数据和AI时代融合存储和计算的全新体系,特别是数据湖和云原生结合以后,这一趋势更加明显。要想理解这一点,还要从数据湖的发展说起。
数据湖的崛起
2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念。詹姆斯·狄克逊把数据湖中的数据比作原生态的水——它是未经处理的,保留原始结构的。
数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水(数据)。于是,早期业界和用户多把数据湖定义为一个集中式的储存原始格式数据的系统,可存储任意规模的结构化、半结构化、非结构化及二进制的数据。
随着大数据技术的融合发展,数据湖的边界不断扩展,内涵不断变化,逐步演变成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。
这就让数据湖与数据仓库有了很大的不同。
数据仓库诞生于数据库时代,它的核心思路是把数据库众多数据进行一定格式转换后,定时地复制到另一个库里做列式存储,从而满足企业查询和数据分析的需求。
在过去,很多企业的数据以ERP、CRM数据为主,数据规模往往是TB级,企业通常在本地采用数据仓库解决方案来存储和分析数据。但数据仓库这种方式模型范式固定,底层数据无法做到多样变化。
随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。
传统的数据仓库无法满足大数据时代企业对于实时、交互式分析等方面的需求,而数据湖择了"前松后紧"的设计思路,初始化阶段放弃严格的模式,后置schme,从而获得更强的灵活性,同时通过统一存储和计算优化来保证数据的一致性和性能,这就让数据湖开始在大数据领域逐渐受到关注。
发展至今,数据湖已经不再局限于某个技术、某个软件产品,而是涵盖数据湖存储、数据湖计算、数据湖AI的多元化数据架构,满足企业级用户的生产管理需求。
为何数据湖与云原生是最佳组合
随着以Oracle为代表的数据库中间件越来越难以满足企业业务迅速变化带来的数据处理需求,IT业界不断地产生新的计算引擎,比如,企业开始纷纷自建开源Hadoop数据湖架构,原始数据统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主,存储和计算一体。
**但这种架构的缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性较差。**在这种情况下,云上托管Hadoop数据湖架构(即EMR开源数据湖)应运而生。底层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主。这个架构通过云上IaaS层提升了机器层面的弹性和稳定性,使企业的整体运维成本有所下降,但企业仍然需要对HDFS系统以及服务运行状态进行管理和治理,即应用层的运维工作。
因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不是最优。同时,受到开源软件本身能力的限制,传统数据湖技术无法满足企业用户在数据规模、存储成本、查询性能以及弹性计算架构升级等方面的需求,也无法达到数据湖架构的理想目标。
而云计算可以让数据湖发挥出最大的价值与作用。云计算拥有极为灵活、弹性和可扩展的计算存储资源,使得数据的存储、分析和应用变得无比容易;而数据湖最大的价值在于将企业内各种格式的数据统一汇聚,在一份数据之上进行多种分析,高性价比且高效地挖掘数据价值,特别是数据湖的设计思路与云计算天然契合,因此自2010年数据湖概念被提出以来,云服务商是数据湖概念走向落地的重要推手。
随着云原生时代到来,当数据湖以云原生(当提到云原生时,很多人的第一反应是Serverless、容器化这些概念,其实近些年来,云原生的概念逐步泛化,涵盖了很多产品服务,从某种程度上讲,云原生是一种分布式系统的设计范式,这种范式具备弹性、安全、稳定等特征)的方式部署时,其强大的性能优势可以被最大化释放。
一方面,数据湖上云后可以享受云本身带来的性能提升,如高可用(相较于自建IDC,云环境拥有更多的资源冗余,一节点发生故障可以无缝切换到其他节点,确保业务的连续性)、弹性(云计算具备动态扩充性与可负担性,可以解决海量业务带来的吞吐和IO性能瓶颈,满足大数据分析所需资源的庞大规模与突发性质的需求)、敏捷(云让企业从重复、复杂的底层IT工作中释放出来,同时其模块化、松耦合的敏捷架构有利于数据产品的快速迭代、部署、运维与创新)。
另一方面,数据湖在云原生的环境中可以做更多性能优化的工作,如丰富的上下文带来的分析加速,流失处理和批式处理的融合带来的实时数据价值释放,一站式数据管理方案带来的安全和质量改善等。这就让企业得以有效利用公有云的基础设施,数据湖平台也有了更多的技术选择,比如云上纯托管的存储系统逐步取代HDFS,成为数据湖的存储基础设施,并且引擎丰富度也不断扩展。总之,云特有的"池化、弹性、敏捷"等特性,让数据层与应用层的很多设想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。
展望云原生数据湖的未来
如果对云原生数据湖做一个概括的话,云原生数据湖是大数据计算平台借助云计算理论发展出来的新技术产品,其支持异构数据灵活存储、计算资源弹性伸缩,能够帮助企业应对当前数据结构愈发复杂、数据处理时效性要求不断变高的业务环境。
也就是说,云原生数据湖只是一种架构原理,其具体实现的方式多种多样,基于EMR可以做云原生数据湖,基于Flink也可以做云原生数据湖。
不过需要说明的是,虽然中国数据湖技术正在逐年发展与突破,公有云厂商及其他厂商纷纷在尝试,但目前在数据感知收集及归类清洗方面存在壁垒和难度,数据湖建模经验不足。总的来说,我国数据湖市场整体发展处于初期阶段,技术路线不统一,业内产品能力良莠不齐。
从应用现状来看,数据湖在国内的落地还存在许多痛点。
产品层面,数据湖的数据治理能力和全链路能力仍需要进一步加强。
就数据治理而言,数据治理要求在目录中包含数据的分类、规则,如果企业对于数据湖的掌控能力不足,会导致数据湖目录及整体架构设计不良,湖内数据未得到充分归档或维护,容易形成数据沼泽。因缺少上下文元数据关联,数据沼泽无法进行数据检索,致使用户无法有效分析和利用数据。
就全链路能力而言,现阶段国内可以提供全链路云原生数据湖服务的供应商较少,大多厂商仅提供数据湖组件的支持,因此下游需求企业只能采购多家供应商来满足自身从数据采集治理到分析可视化的需求。
应用层面,云原生数据湖的行业认知和人才培养较为薄弱。人才方面,目前大数据、AI技术栈的发展日新月异,企业缺乏专业人才。从企业内部来看,管理者对数据治理一知半解,若在没有深入梳理企业业务现状及需求的情况下盲目搭建数据湖,追求大而全的概念,可能导致数据湖的落地效果不佳。行业认知方面,尽管数据的价值属性已经获得业界的广泛共识,但是选择观望的企业仍旧占绝大多数,数据湖在认知和推广上仍面临多方面的挑战。
另外,随着企业数字化转型进入深水区,数据已经成为企业的核心生产要素,而数据湖的最大风险之一就是安全性和访问控制。大量数据在没有任何监管的情况入湖泊,一旦某些数据包含其他数据没有的隐私和法规要求,将可能发生数据泄露和遗失,带来不可估量的后果。
当然,任何一个行业在发展初期都会存在这样那样的问题,有不完善的地方恰恰意味着这个行业还有发展的空间。根据艾瑞咨询的分析,由于国家政策利好,比如国家接连出台《促进大数据发展行动纲要》《全国一体化大数据中心协同创新体系算力枢纽实施方案》等文件推动大数据产业走向成熟,以及互联网技术高速发展的驱动、企业数字化转型加速等因素,预计中国云原生数据湖市场未来会以39.7%的复合增长率快速发展。
所以,云原生数据湖未来的发展前景值得我们期待和关注。
云原生数据湖应用洞察白皮书
内容整理自:艾瑞咨询《中国云原生数据湖应用洞察白皮书》
概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有「数据多源异构、统一存储管理、多范式计算、schema后置和应用广泛」的特性。云原生是数据湖未来部署的必然形态,具有「建立统一数据资产、低成本使用基础资源、高性能计算体验升级和敏捷创新赋能」的核心价值。
1 数据湖的定义
数据湖是面向大数据场景的创新解决方案。
早期,业界和用户多把数据湖定义为一个储存原始格式数据的系统,可容纳结构化、半结构化、非结构化及二进制的数据。
随着大数据技术的融合发展,数据湖的边界不断扩展,内涵也发生了变化。数据湖开始汇集各方面技术,逐步演进成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。它可以更加高效率低成本地管理海量多源异构数据,打通数据孤岛,释放数据价值,助力新时代下各行业企业的数字化转型。
2 数据湖 vs 数据仓库
数据仓库是诞生于数据库时代,应企业分析诉求而生的数据产品,它的核心思路是把数据库中的数据进行一定格式转换后,定时地复制至另一个库里做列式存储,从而满足企业查询和数据分析的诉求。随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,传统数据仓库无法适应大数据和现代化企业对于实时、交互式分析等方面的诉求。
随之,数据湖诞生。它选择了“前松后紧”的设计思路,初始化阶段放弃严格的模式,后置schema,从而获取更强的灵 活性;同时通过统一存储管理和计算优化来保证数据的一致性和性能。
3 云原生数据湖
云原生数据湖核心价值:
- 集中存储、统一管理,建立高质量的数据资产
- 通过云的方式,更低成本地使用存储和计算资源
- 云湖共生,带来大数据应用的高性能体验
- 重塑IT部门定位与价值,赋能业务应用敏捷创新
3.1 基于云原生数据湖的统一资产建设
随着数字转型化进入深水区,“数据”已经成为企业的核心生产要素,打通各部门、各应用系统,建立企业级的统一数据资产已经成为业内的共识。基于云上的集中存储和数据湖,企业可以更丝滑地实现数据多源聚合,对内外部数据进行全生命周期的管理,从而沉淀为数据资产,赋能业务应用,释放数据价值。同时,基于云原生数据湖部署的云原生应用天然可以实现数据的无界流动,数用一体为企业打造了高效的价值闭环。
3.2 通过云的方式,更低成本地使用存储和计算资源
云原生数据湖是基于云环境构建的低成本大数据解决方案。于存储上,云原生数据湖使用对象存储,实现了无限扩容(理论上)和更低的价格,同时云上统一存储也简化了之后数据调用的复杂度;于计算上,云原生数据湖采用计算存储分离的架构,让计算节点和存储节点可以分别弹性伸缩,避免了存算需求不同造成的浪费;于用云策略上,云原生数据湖通过Serverless的模式,根据请求量自动进行毫秒级的弹性扩容,解决波峰资源短缺、波谷资源浪费的问题,实现最小单元的成本最优。
4 产业图谱
公有云厂商+生态厂商的市场格局初现
以上是关于云原生数据湖是什么?的主要内容,如果未能解决你的问题,请参考以下文章