在远程集群上使用 Hbase 运行 Map Reduce

Posted

技术标签:

【中文标题】在远程集群上使用 Hbase 运行 Map Reduce【英文标题】:Running a Map Reduce with Hbase on a remote cluster 【发布时间】:2014-03-17 07:09:46 【问题描述】:

我有一个包含某些数据的 HBase 集群。我还有一个 hadoop 集群,它也有某些数据。现在是否可以使用来自 hbase 集群的数据在 hadoop 集群上运行 map reduce 作业?我们如何使用 pig 来做到这一点?

【问题讨论】:

【参考方案1】:

您将遇到的主要问题是能够通过网络从 Mappers 和 Reducer 直接访问 HBase RegionServer。您的服务器是否有直接的通信线路? Hadoop 集群的大多数网络都已设置好,因此无法进行这种类型的访问,并且需要某种网关。如果您确实进行了设置,那么您应该没有任何理由不能按照您的建议进行操作。

下一个问题是这是否是一个好主意。两个集群之间的网络链接是什么? 1GigE?该链接是否被其他人使用?

【讨论】:

请解释一下,如果可能的话,我该如何进行通信,比如在哪里指定目标hbase服务器来获取数据。

以上是关于在远程集群上使用 Hbase 运行 Map Reduce的主要内容,如果未能解决你的问题,请参考以下文章

YCSB测试HBase远程完全分布式集群

安装HBase后,HMaster进程无法在hadoop多节点集群上运行。

HBase集群规划

HBase最佳实践 - 集群规划

Hadoop集群中Hbase的介绍安装使用

关于hbase集群