Cloudera Impala 是内存消耗框架吗?

Posted

技术标签:

【中文标题】Cloudera Impala 是内存消耗框架吗?【英文标题】:Is Cloudera Impala a Memory Consuming Framework? 【发布时间】:2015-01-13 10:37:57 【问题描述】:

我在我的项目中使用大数据来处理我的 ETL 执行所需的操作时间。

我想了解 CloudEra Impala 框架是内存密集型的,因为它返回结果的速度非常快,而且比 hive 和 Pig 快得多。

我有一个包含 20-3000 万条记录的数据集,我执行了一个 impala 查询操作,例如 group by 和 joins

所以你建议使用 impala,因为它更快还是使用 hive。我的全部意图是压缩我现在使用 Oracle 的 ETL 操作时间..

请就内存使用提出建议,是否推荐...

此外,如果有任何链接可以帮助我们了解 Impala 的工作原理以及它如何使用其内存,将会有很大帮助。

谢谢。!!!!!!

【问题讨论】:

【参考方案1】:

Impala 绝对是内存密集型的,并且比 Hive 和 Pig 快得多。对于 30M 记录,Hive 的运行速度将比您使用的 Oracle 快。如果您有足够的内存资源、硬件并且没有其他占用内存的进程,Impala 是最好的工具。

http://www.cloudera.com/content/cloudera/en/documentation/cloudera-impala/latest/topics/impala_cluster_sizing.html

本文档解释了 Impala 的内存要求

【讨论】:

以上是关于Cloudera Impala 是内存消耗框架吗?的主要内容,如果未能解决你的问题,请参考以下文章

Cloudera impala 支持 mongodb 吗?

Cloudera Impala 可以与组分隔符分隔符一起使用吗?

ETL informatica 大数据版(不是云版)可以连接到 Cloudera Impala 吗?

为啥 Cloudera 的 Impala 还在“孵化”?

Cloudera Apache impala 查询:超出内存限制:无法分配行批处理 EXCHANGE_NODE?

Impala 简介