大数据专家手把手教你打造实时数据湖
Posted 大数据v
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据专家手把手教你打造实时数据湖相关的知识,希望对你有一定的参考价值。
数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长、数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,这使得通用计算引擎(如Spark、Flink)、交互式分析系统(如ClickHouse)、数据湖框架(如Iceberg)等技术快速发展。
作为专业的开发者社区,DEEPNOVA致力于促进技术交流、开拓技术视野、建立技术生态,并积极拥抱开源社区,针对新一代的数据湖、实时数仓等开源技术深入研究,并实现部分功能的优化。
为了与开发者更好地进行技术探讨交流,4月16日 14:00—17:30,DEEPNOVA 联合Iceberg社区共同推出“DEEPNOVA MEETUP Online”。此次活动主题为《基于 Iceberg 打造实时数据湖》,汇聚了DEEPNOVA社区专家团力量,将带领听众了解完整的Iceberg技术发展史及在国产化数据中的应用与实践,真正做到将优质技术内容回馈社区。
1
核心内容
1. 技术解读:《Apache Iceberg过去、现状及未来》
分享嘉宾:Apache Iceberg和HBase PMC成员 胡争
内容亮点:Apache Iceberg作为一种开放的标准化数据湖表格式,已经被国内外众多大厂选择和应用。近期Apache Iceberg计划在AWS之上推出商业版的数据湖存储服务。与此同时,Snowflake、AWS、Cloudera等公司纷纷发布Iceberg数据湖。事实证明,经过几年的发展,Apache Iceberg取得了飞速的发展和巨大的成功。本次分享内容包括Iceberg开源历程,以及当下和未来重点发力的技术方向。
2. 技术实践:《网易湖仓管理系统Arctic》
分享嘉宾:网易数据湖和实时计算团队负责人 马进
内容亮点:Arctic 是网易自研的基于 Iceberg 的湖仓管理系统。同时,网易通过Flink和Arctic构建了流批一体的数据生产链路,实时离线统一的数仓。在 Iceberg 基础之上,Arctic具有支持主键、结构自优化、数据一致性、实时订阅和实时join等特性。本次分享将主要介绍 Arctic 的核心设计思路。
3. 技术实践:《FastData DLink 对Iceberg索引的优化与实践》
分享嘉宾:滴普科技存储引擎部总监 张敢
内容亮点:Z-Order是一种可以将多维数据压缩到一维的技术,在时空索引以及图像方面使用较广,对多字段进行排序,对原始数据重新布局, 减少不必要的I/O,进而提升查询速度。基于Iceberg 社区提出的主键去重方案,DEEPNOVA 社区又利用 BloomFilter 进行了优化,对 eq-delete 文件进行过滤,减少内存占用,提升小文件合并效率。本次分享将主要解读FastData在索引技术上的优化能力。
4. 技术实践:《FastData DLink基于Iceberg 构建实时数据湖的优化与实践》
分享嘉宾:滴普科技数据库内核开发工程师 简勇华
内容亮点:Iceberg CDC能力是支持构建实时数仓的核心能力。DEEPNOVA 社区对 Iceberg CDC 功能进行了完整实现,并实现Hive历史数据快速迁移入湖,对社区PR 生成元数据的方式进行了并行优化,提升数倍的迁移性能。本次分享将围绕如何构建实时数仓,展示FastData的技术优势。
听众收益:
1. 了解Apache Iceberg的架构原理、特性及应用场景
2. 基于Iceberg实现不同功能的技术优化能力及其业务价值
3. 开放的技术交流社区,与资深技术专家共同探讨湖仓技术
我们坚信技术的前进一定是无数技术从业者一起努力的结果,也衷心希望DEEPNOVA社区能成为技术爱好者们的学习交流平台,借助更多人的力量将社区建设得更加完善。我们也将秉持开放、共享的社区精神,通过更多的技术分享、直播活动等方式回馈社区,让数字技术为世界带来无限可能。
欢迎扫码观看直播,转发分享直播间邀约榜前三名,还将拥有DEEPNOVA专属礼盒。
Trino分析引擎如何在数据湖上进行极速分析?
实时分析型数据库DLink支持Iceberg维度表Lookup join
如何利用湖仓一体架构处理多模数据的存储和分析?
分析型数据库FastData for DLink有何优势?
成功案例
先进制造
政务双碳
能源出行
消费流通
商业综合
智慧文旅
更多行业
点击下方阅读原文,解锁活动详情
以上是关于大数据专家手把手教你打造实时数据湖的主要内容,如果未能解决你的问题,请参考以下文章
❤️手把手教你打造一个企业级实时数据中台❤️熬夜爆肝&&万字图文
使用 Iceberg on Kubernetes 打造新一代云原生数据湖
Flink + Hudi 在 Linkflow 构建实时数据湖的生产实践