重磅!AWS升级对Apache Hudi的集成
Posted leesf
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了重磅!AWS升级对Apache Hudi的集成相关的知识,希望对你有一定的参考价值。
全球最大云厂商AWS的 Athena 团队又更新了 Athena 与 Apache Hudi 的集成,以支持新功能及最新的 0.8.0 社区版本。早在Apache Hudi还处于孵化阶段时,AWS Athena 便集成了 Hudi 以支持广大客户在S3上变更数据的需求,随着Hudi被全球各大云厂商集成,Hudi作为云上数据湖解决方案的热度持续升温,其价值也得到了全球广大用户的认可。
Hudi 是一种开源数据管理框架,可以用于简化 S3 数据湖中的增量数据处理和数据管道开发工作。欢迎扫描二维码给 Hudi 送 Star & Fork
现在能够使用 Athena 查询通过 Amazon EMR、Apache Spark、Apache Hive 或其他兼容服务管理的 Hudi 0.8.0 表,并且现在支持快照查询和读取引导表,这意味着可以通过Athena实时查询MOR类型表中的log日志文件,以及将Parquet表原地转化成的Hudi表。
Apache Hudi 提供记录级数据处理,可帮助您简化变更数据捕获(CDC)管道的开发,遵守欧盟《一般数据保护条例(GDPR)》驱动的更新和删除,并更好地管理来自需要数据插入和事件更新的传感器或设备的串流数据。0.8.0 版本可以更轻松地将大型 Parquet 表迁移到Hudi(而无需复制数据),以便通过 Athena 对其进行查询和分析。此外借助 Athena 全新推出的对快照查询的支持,现在可以近乎实时地查看对表的更新。
PS:如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”,将会是我不竭的动力!
作者:leesf 掌控之中,才会成功;掌控之外,注定失败。
出处:http://www.cnblogs.com/leesf456/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
如果觉得本文对您有帮助,您可以请我喝杯咖啡!
以上是关于重磅!AWS升级对Apache Hudi的集成的主要内容,如果未能解决你的问题,请参考以下文章
重磅!Impala 3.4正式集成开源数据湖框架Apache Hudi
重磅!数据湖框架 Apache Hudi又双叕被国内顶级云服务提供商集成了!
Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同