如何使用 hbase 作为 hadoop 流作业的来源
Posted
技术标签:
【中文标题】如何使用 hbase 作为 hadoop 流作业的来源【英文标题】:How to use hbase as a source for hadoop streaming jobs 【发布时间】:2014-03-28 05:23:49 【问题描述】:有没有办法使用 Hbase 表作为 Hadoop 流作业的源?具体来说,我想运行一个用 Python 编写的 Hadoop 流作业。当输入被指定为 HDFS 上的文件夹时,这很有效。但是我找不到任何关于从 Hbase 表中读取数据的文档。
支持吗?或者我必须先经历编写 Java 代码以将数据从 Hbase 获取到 HDFS 的艰辛,然后再运行流式作业?
我正在使用 Cloudera 的 Hbase 0.94。
(有一个类似的问题already present here。但它指向第三方解决方案,没有积极贡献。我希望这将在 Hbase 中得到支持)。
【问题讨论】:
【参考方案1】:我会使用 Pig 加载数据,然后将其输入到流式 Python 应用程序中。
请看这里: http://pig.apache.org/docs/r0.12.0/func.html#HBaseStorage http://pig.apache.org/docs/r0.12.0/basic.html#stream
【讨论】:
以上是关于如何使用 hbase 作为 hadoop 流作业的来源的主要内容,如果未能解决你的问题,请参考以下文章
在使用 java 运行 Hadoop map reduce 作业时抛出空指针异常