恭喜,Apache Hudi 即将成为顶级项目!

Posted Java技术范

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了恭喜,Apache Hudi 即将成为顶级项目!相关的知识,希望对你有一定的参考价值。

美国当地时间2020年05月11日,Apache Hudi 项目的共同创始人、PMC Vinoth Chandar 给社区发了一封标题为 [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP[1] 的邮件,来投票讨论 Apache Hudi 毕业成为 Apache TLP 项目。

2020年05月19日共40人投票赞成[2] ,不久社区给 Apache 董事会申请成为 TLP,今天(2020年05月23日)凌晨结果终于出来了,Vinoth Chandar 大佬给社区发了邮件说Apache 董事会同意 Apache Hudi 成为顶级项目提议。接下来,Apache Hudi 社区会准备进入 TLP 的一些事情。

恭喜,Apache Hudi 即将成为顶级项目!

Apache Hudi(Hoodie) 是 Uber 为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题,该项目在2016年开始开发,并于2017年开源,2019年1月进入 Apache 孵化器。

Hudi (Hadoop Upsert Delete and Incremental) 是一种分析和扫描优化的数据存储抽象,可在几分钟之内将变更应用于 HDFS 中的数据集中,并支持多个增量处理系统处理数据。通过自定义的 InputFormat 与当前 Hadoop 生态系统(包括 Apache Hive、Apache Parquet、Presto 和 Apache Spark)集成,使得该框架对最终用户来说是无缝的。

Hudi 的设计目标就是为了快速增量更新 HDFS 上的数据集,它提供了两种更新数据的方式:Copy On Write 和 Merge On Read。Copy On Write 模式就是我们更新数据的时候需要通过索引获取更新的数据所涉及的文件,然后把这些数据读出来和更新的数据进行合并,这种模式更新数据比较简单,但是当更新涉及到的数据比较大时,效率非常低;而 Merge On Read 就是将更新写到单独的新文件里面,然后我们可以选择同步或异步将更新的数据和原来的数据进行合并(可以称为 combination),因为更新的时候只写新的文件,所以这种模式更新的速度会比较快。

有了 Hudi 之后,我们可以实时采集 mysql、HBase、Cassandra 里面的增量数据然后写到 Hudi 中,然后 Presto、Spark、Hive 可以很快地读取到这些增量更新的数据,如下:

更多关于 Apache Hudi 的介绍可以参见  以及 的介绍,以及 Apache Hudi 的官方文档:http://hudi.apache.org/

引用链接

[1] [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP: https://www.mail-archive.com/general@incubator.apache.org/msg72160.html
[2]  https://lists.apache.org/thread.html/r86278a1a69bbf340fa028aca784869297bd20ab50a71f4006669cdb5%40%3Cgeneral.incubator.apache.org%3E


猜你喜欢

1、

2、

3、

4、

以上是关于恭喜,Apache Hudi 即将成为顶级项目!的主要内容,如果未能解决你的问题,请参考以下文章

官宣!ASF官方正式宣布Apache Hudi成为顶级项目

官宣!ASF官方正式宣布Apache Hudi成为顶级项目

官宣,Apache Hudi 正式成为顶级项目

Dubbo即将毕业,晋升为Apache顶级项目?

Dubbo即将毕业,晋升为Apache顶级项目!

Hudi摆摊|刚刚晋升为 Apache 顶级项目的 Hudi 如何在数据湖上玩转增量处理