终于!Apache Hudi与Impala完成整合
Posted ApacheHudi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了终于!Apache Hudi与Impala完成整合相关的知识,希望对你有一定的参考价值。
Hudi: Apache Hudi是一个开源的,支持插入、更新、删除的增量数据湖处理框架,可助力构建企业级数据湖。
Impala: Apache Impala是一个开源的大规模并行处理SQL查询引擎,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
Impala作为查询引擎可架设在Hudi表之上,Impala社区关于支持对Hudi表的查询的commit已经提交至master主干分支,这表明在下个Impala版本中便可正式使用该特性,也意味着用户可使用Impala查询Hudi表中数据,悉知Hudi也是第一个被Impala支持查询的数据湖框架。至此Hudi支持的查询引擎有Hive/SparkSQL/Presto/Impala,已经涵盖了越来越多的SQL查询引擎,Hudi周边生态也越发完善,发展也越来越迅速。
JIRA:IMPALA-8778: Support read Apache Hudi Read Optimized tables
Commit: https://github.com/apache/impala/commit/ea0e1def6160d596082b01365fcbbb6e24afb21d
如果你已经使用了Impala和Hudi,那么不妨尝试使用Impala来查询Hudi表数据。
如果你想参与Apache Hudi社区,可参考: 和 ,可前往Apache Hudi项目主页:https://github.com/apache/incubator-hudi 进行 fork & star,也可前往https://hudi.apache.org了解更多关于Hudi的知识。
以上是关于终于!Apache Hudi与Impala完成整合的主要内容,如果未能解决你的问题,请参考以下文章