如何使用 hbase 作为 hadoop 流作业的来源

Posted

技术标签:

【中文标题】如何使用 hbase 作为 hadoop 流作业的来源【英文标题】:How to use hbase as a source for hadoop streaming jobs 【发布时间】:2014-03-28 05:23:49 【问题描述】:

有没有办法使用 Hbase 表作为 Hadoop 流作业的源?具体来说,我想运行一个用 Python 编写的 Hadoop 流作业。当输入被指定为 HDFS 上的文件夹时,这很有效。但是我找不到任何关于从 Hbase 表中读取数据的文档。

支持吗?或者我必须先经历编写 Java 代码以将数据从 Hbase 获取到 HDFS 的艰辛,然后再运行流式作业?

我正在使用 Cloudera 的 Hbase 0.94。

(有一个类似的问题already present here。但它指向第三方解决方案,没有积极贡献。我希望这将在 Hbase 中得到支持)。

【问题讨论】:

【参考方案1】:

我会使用 Pig 加载数据,然后将其输入到流式 Python 应用程序中。

请看这里: http://pig.apache.org/docs/r0.12.0/func.html#HBaseStorage http://pig.apache.org/docs/r0.12.0/basic.html#stream

【讨论】:

以上是关于如何使用 hbase 作为 hadoop 流作业的来源的主要内容,如果未能解决你的问题,请参考以下文章

在使用 java 运行 Hadoop map reduce 作业时抛出空指针异常

在 Hadoop 中使用 HBase 而不是 Hive [重复]

hive和hbase有啥关系和区别

在远程集群上使用 Hbase 运行 Map Reduce

Hadoop集群中Hbase的介绍安装使用

如何编写“仅地图”hadoop 作业?