如何使用 hbase 作为 hadoop 流作业的来源

Posted 2023-04-18

技术标签:

【中文标题】如何使用 hbase 作为 hadoop 流作业的来源【英文标题】：How to use hbase as a source for hadoop streaming jobs 【发布时间】：2014-03-28 05:23:49 【问题描述】：

有没有办法使用 Hbase 表作为 Hadoop 流作业的源？具体来说，我想运行一个用 Python 编写的 Hadoop 流作业。当输入被指定为 HDFS 上的文件夹时，这很有效。但是我找不到任何关于从 Hbase 表中读取数据的文档。

支持吗？或者我必须先经历编写 Java 代码以将数据从 Hbase 获取到 HDFS 的艰辛，然后再运行流式作业？

我正在使用 Cloudera 的 Hbase 0.94。

（有一个类似的问题already present here。但它指向第三方解决方案，没有积极贡献。我希望这将在 Hbase 中得到支持）。

【问题讨论】：

【参考方案1】：

我会使用 Pig 加载数据，然后将其输入到流式 Python 应用程序中。

请看这里： http://pig.apache.org/docs/r0.12.0/func.html#HBaseStorage http://pig.apache.org/docs/r0.12.0/basic.html#stream

【讨论】：

以上是关于如何使用 hbase 作为 hadoop 流作业的来源的主要内容，如果未能解决你的问题，请参考以下文章