在远程集群上使用 Hbase 运行 Map Reduce
Posted
技术标签:
【中文标题】在远程集群上使用 Hbase 运行 Map Reduce【英文标题】:Running a Map Reduce with Hbase on a remote cluster 【发布时间】:2014-03-17 07:09:46 【问题描述】:我有一个包含某些数据的 HBase 集群。我还有一个 hadoop 集群,它也有某些数据。现在是否可以使用来自 hbase 集群的数据在 hadoop 集群上运行 map reduce 作业?我们如何使用 pig 来做到这一点?
【问题讨论】:
【参考方案1】:您将遇到的主要问题是能够通过网络从 Mappers 和 Reducer 直接访问 HBase RegionServer。您的服务器是否有直接的通信线路? Hadoop 集群的大多数网络都已设置好,因此无法进行这种类型的访问,并且需要某种网关。如果您确实进行了设置,那么您应该没有任何理由不能按照您的建议进行操作。
下一个问题是这是否是一个好主意。两个集群之间的网络链接是什么? 1GigE?该链接是否被其他人使用?
【讨论】:
请解释一下,如果可能的话,我该如何进行通信,比如在哪里指定目标hbase服务器来获取数据。以上是关于在远程集群上使用 Hbase 运行 Map Reduce的主要内容,如果未能解决你的问题,请参考以下文章