Impala 有自己的执行引擎还是在 Hadoop 生态系统中的 MapR 上工作？

Posted 2023-03-22

技术标签:

【中文标题】Impala 有自己的执行引擎还是在 Hadoop 生态系统中的 MapR 上工作？【英文标题】：Impala has his own execution engine or it works on MapR in Hadoop eco system? 【发布时间】：2018-03-15 09:36:46 【问题描述】：

我从来没有机会在 Impala 上工作。我刚刚开始阅读有关 Impala 的信息。但是我有一个关于 Impala 的基本问题我不清楚。 Impala 有自己的恶魔，所以它也有自己的执行引擎，或者它可以在 MapR 或其他执行引擎上运行。提前致谢

【问题讨论】：

围绕您的查询添加了详细信息。请检查。 【参考方案1】：

MapReduce 是一种以分布式并行模式处理大型数据集的设计模式。

Impala 是在 Apache Hadoop 上运行的开源大规模并行处理 (MPP) 查询引擎。 Impala 更像是像 Hive 这样的仓库，与 Hive 相比，它有自己的优点。

Imapala 和mapreduce 的主要区别是：

Impala 不使用mapreduce。它运行单独的Impala daemon，它将查询拆分并并行运行，最后合并结果集。

Impala 在内存中执行大部分操作，并且磁盘 I/O 受到限制。

Impala 使用hdfs 进行存储，从而带来了可靠性和效率。它在内存中缓存尽可能多的查询结果。

Impala 支持新的文件格式，如parquet，它是柱状文件格式。因此，如果您使用这种格式，对于大部分时间只访问少数列的查询来说，它会更快。

【讨论】：

感谢@gyan 的快速响应【参考方案2】：