POC:Cloudera Impala + HDFS + HBase 在单独的集群上
Posted
技术标签:
【中文标题】POC:Cloudera Impala + HDFS + HBase 在单独的集群上【英文标题】:POC: Cloudera Impala + HDFS + HBase on separate cluster 【发布时间】:2014-10-29 15:52:45 【问题描述】:我正在处理大数据系统架构。我知道 Impala 可以对存储在 HDFS/HBase 集群中的数据执行查询。
但是,如果我有一个 HDFS 集群和另一个用于保存 HBase 数据的集群,该怎么办。 Impala 是否能够执行合并来自两个集群的数据的查询?
【问题讨论】:
“另一个集群”是指有一个单独的集群,它带有 HBase和它自己的 HDFS? 不,只是一个 HBase 集群。 【参考方案1】:首先 HBase 将其数据存储在 HDFS 中。所以我确信你的 HBase 集群上有 HDFS。
当 impala 向 HDFS 读取/写入数据时,它直接访问操作系统级别的块。这就是为什么黑斑羚在这方面如此之快。当 impala 正在读取 HBase 数据时,它正在成为使用其 api 的 HBase 客户端,而不是像其他方式那样直接从磁盘读取 HBase 数据。
因此,HBase 不必安装在与 Impala 相同的集群上。但是,集群需要能够相互访问。
【讨论】:
【参考方案2】:我认为您还需要在 Hbase 集群上安装 Impala。在两个集群之间连接数据可能不是一个好主意,因为您会遇到延迟问题。
【讨论】:
以上是关于POC:Cloudera Impala + HDFS + HBase 在单独的集群上的主要内容,如果未能解决你的问题,请参考以下文章
在没有 cloudera manager 的情况下安装 cloudera impala
安装 Impala 是不是需要 Cloudera Navigator Key Trustee Server、Cloudera Navigator Key HSM、Cloudera Navigator