POC:Cloudera Impala + HDFS + HBase 在单独的集群上

Posted

技术标签:

【中文标题】POC:Cloudera Impala + HDFS + HBase 在单独的集群上【英文标题】:POC: Cloudera Impala + HDFS + HBase on separate cluster 【发布时间】:2014-10-29 15:52:45 【问题描述】:

我正在处理大数据系统架构。我知道 Impala 可以对存储在 HDFS/HBase 集群中的数据执行查询。

但是,如果我有一个 HDFS 集群和另一个用于保存 HBase 数据的集群,该怎么办。 Impala 是否能够执行合并来自两个集群的数据的查询?

【问题讨论】:

“另一个集群”是指有一个单独的集群,它带有 HBase它自己的 HDFS? 不,只是一个 HBase 集群。 【参考方案1】:

首先 HBase 将其数据存储在 HDFS 中。所以我确信你的 HBase 集群上有 HDFS。

当 impala 向 HDFS 读取/写入数据时,它直接访问操作系统级别的块。这就是为什么黑斑羚在这方面如此之快。当 impala 正在读取 HBase 数据时,它正在成为使用其 api 的 HBase 客户端,而不是像其他方式那样直接从磁盘读取 HBase 数据。

因此,HBase 不必安装在与 Impala 相同的集群上。但是,集群需要能够相互访问。

【讨论】:

【参考方案2】:

我认为您还需要在 Hbase 集群上安装 Impala。在两个集群之间连接数据可能不是一个好主意,因为您会遇到延迟问题。

【讨论】:

以上是关于POC:Cloudera Impala + HDFS + HBase 在单独的集群上的主要内容,如果未能解决你的问题,请参考以下文章

为啥 Cloudera 的 Impala 还在“孵化”?

在没有 cloudera manager 的情况下安装 cloudera impala

安装 Impala 是不是需要 Cloudera Navigator Key Trustee Server、Cloudera Navigator Key HSM、Cloudera Navigator

Cloudera impala 支持 mongodb 吗?

上海Cloudera 数据分析师培训:PigHive和 Impala

Impala ODBC 安装笔记