开源大数据:Iceberg新一代数据湖技术实践

Posted ejinxian

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了开源大数据:Iceberg新一代数据湖技术实践相关的知识,希望对你有一定的参考价值。

数据湖三剑客

1、Iceberg 基本结构

1-1、Iceberg 表格式

        Apache Iceberg是一种用于大型分析数据集的开放表格格式。Iceberg向Trino和Spark添加了使用高性能格式的表,其工作方式就像SQL表一样

2、Icebreg 核心

        通过快照方式,在时间延续上记录表的所有变化

        2-1、某个时间节点,表的所有数据文件列表

        2-2、每次更新操作都生成新的快照

        2-3、实现数据:原子性、读写分离、时间延续和回滚、增量消费

3、Icebreg 元数据管理

        3-1、元数据:结构、分区信息、属性、快照记录

        3-2、分成:HMS 或文件内容、元数据JSON、快照、数据文件

4、Icebreg 应用

        4-1、优化导入流程:Icebreg 提供ACID 事务能力,读写分离,写入可见,不影响当前数据处理,简化ETL

        4-2、多种分析引擎:优秀的内核便于适应各种特定引擎,目前支持:Spark、Trino、Flink、Presto、Hive。

        4-3、统一存储:批任务和流任务可以使用相同的存储数据模型(文件系统、对象存储),数据不再孤立,支持隐藏分区和分区进化,方便业务进行数据分区策略,Parquet,ORC,Avro 列存储和行存储的兼顾。

        4-4、增量处理能力:Icebreg 支持流式数据的落地和增量消费、Spark Structured Straming 适配,Flink sink .source适配

  

以上是关于开源大数据:Iceberg新一代数据湖技术实践的主要内容,如果未能解决你的问题,请参考以下文章

数据湖:Apache Iceberg在腾讯的探索和实践

数据湖:Apache Iceberg在腾讯的探索和实践

使用 Iceberg on Kubernetes 打造新一代云原生数据湖

B站基于Iceberg+Alluxio助力湖仓一体项目落地实践

B站基于Iceberg+Alluxio助力湖仓一体项目落地实践

“数据湖三剑客”Hudi、Delta Lake和Iceberg 深度对比