Impala 有自己的执行引擎还是在 Hadoop 生态系统中的 MapR 上工作?

Posted

技术标签:

【中文标题】Impala 有自己的执行引擎还是在 Hadoop 生态系统中的 MapR 上工作?【英文标题】:Impala has his own execution engine or it works on MapR in Hadoop eco system? 【发布时间】:2018-03-15 09:36:46 【问题描述】:

我从来没有机会在 Impala 上工作。我刚刚开始阅读有关 Impala 的信息。但是我有一个关于 Impala 的基本问题我不清楚。 Impala 有自己的恶魔,所以它也有自己的执行引擎,或者它可以在 MapR 或其他执行引擎上运行。 提前致谢

【问题讨论】:

围绕您的查询添加了详细信息。请检查。 【参考方案1】:

MapReduce 是一种以分布式并行模式处理大型数据集的设计模式。

Impala 是在 Apache Hadoop 上运行的开源大规模并行处理 (MPP) 查询引擎。 Impala 更像是像 Hive 这样的仓库,与 Hive 相比,它有自己的优点。

Imapalamapreduce 的主要区别是:

Impala 不使用mapreduce。它运行单独的Impala daemon,它将查询拆分并并行运行,最后合并结果集。

Impala 在内存中执行大部分操作,并且磁盘 I/O 受到限制。

Impala 使用hdfs 进行存储,从而带来了可靠性和效率。它在内存中缓存尽可能多的查询结果。

Impala 支持新的文件格式,如parquet,它是柱状文件格式。因此,如果您使用这种格式,对于大部分时间只访问少数列的查询来说,它会更快。

【讨论】:

感谢@gyan 的快速响应【参考方案2】:

是的,Impala 守护进程在内存中运行 SQL,并使用由 YARN 或任何其他资源调度程序管理和管理的常驻资源池。这可以调整。

MapR 是一个 hadoop 分发包 - 是的,它确实将 Impala 作为更大捆绑包的一部分提供。

【讨论】:

以上是关于Impala 有自己的执行引擎还是在 Hadoop 生态系统中的 MapR 上工作?的主要内容,如果未能解决你的问题,请参考以下文章

大数据分析查询引擎Impala

一页纸精华 | Impala

impala 理论

Impala:新一代开源大数据分析引擎

大数据时代快速SQL引擎-Impala

Apache Impala现在已晋升为Apache顶级项目