Impala的SYNC_DDL

Posted 2023-04-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Impala的SYNC_DDL相关的知识，希望对你有一定的参考价值。

参考技术A 那天去面试，面试官问我知不知道Impala同步数据的方式，我回答invalidate metadata和refresh table [partition]，后来他问我还有没有其他的方式，当时我没想到别的，因为工作中用到impala都是和hive结合的，spark把数据落到hive中，然后刷新impala，impala提供查询。

后来他提了下问我是否知道Impala的SYNC_DDL。说实话这个我也是第一次听过，后来去官网查了下用法，发现这个impala自己运行DDL时候同步用的，挺好的，又长知识了。

这个命令是为了解决这个问题的。在某个节点的impala-shell运行DDL语句，可能会出现其他节点查看不到的情况，因为impala的所有元数据都是用catalogd来管理的。一个impalad进行DDL操作会发送到catalogd，由catalogd在广播给其他的impalad服务，这时候可能会出现延迟，导致有的impalad查询不到发生的DDL。SYNC_DDL就是解决这个问题的。

官网的描述如下

impala 理论

参考技术A

impala介绍

Cloudera Imapala是一款开源的MPP架构的SQL查询引擎，它提供在hadoop环境上的低延迟、高并发的BI/数据分析，是一款开源、与Hadoop高度集成，灵活可扩展的查询分析引擎，目标是基于SQL提供高并发的即席查询。

与其他的查询引擎系统（如presto、spark sql、hive sql）不同，Impala基于 C++ 和Java编写，支持Hadoop生态下的多种组件集成（如HDFS、HBase、Metastore、YARN、Sentry等），支持多种文件格式的读写（如Parqeut、Avro、RCFile等）。

标准的mpp架构，massively-parallel query execution engine，支持在上百台机器的Hadoop集群上执行快速查询，对底层的存储系统解耦，不像数据库要求那么严格，不同的底层存储可以联合查询。

impala在大数据应用处于什么环节及作用

impala在大数据应用领域中处于数据分析环节，利用mpp架构实现高效数据查询，下游应用系统使用impala也比较多，尤其在应用集市查询数据仓库的时候使用的较多。

impala架构体系

impala由statestore、catalog、impala daemon(impalad)组成。

impala任务执行流程

impala支持的文件格式

Impala可以对Hadoop中大多数格式的文件进行查询，通过create table和insert的方式将一部分格式的数据加载到table中，但值得注意的是，有一些格式的数据它是无法写入的（write to），对于Impala无法写入的数据格式，通常是通过Hive建表，使用Hive进行数据的写入，然后使用Impala来对这些保存好的数据执行查询操作。

impala与hive对比

impala数据类型

海汼部落原创文章，原文链接：(http://hainiubl.com/topics/75548)

以上是关于Impala的SYNC_DDL的主要内容，如果未能解决你的问题，请参考以下文章

什么是impala，如何安装使用Impala

impala 实操

什么是impala，如何安装使用Impala

怎么理解impala（impala工作原理是什么）