Hbase mapreduce 交互

Posted

技术标签:

【中文标题】Hbase mapreduce 交互【英文标题】:Hbase mapreduce interaction 【发布时间】:2012-11-09 07:39:24 【问题描述】:

我有一个程序 hbase 和 mapreduce。

我将数据存储在 HDFS 中,这个文件的大小是:100G。现在我将这些数据放到 Hbase 中。

我使用 mapreduce 扫描这个文件丢失了 5 分钟。但是扫描hbase表丢失了30分钟。

使用hbase和mapreduce如何提高速度?

谢谢。

【问题讨论】:

【参考方案1】:

我假设您使用的是单节点 HDFS。如果您将 100Gb 文件放在 HDFS 的多节点集群中,那么 Map Reduce 和 Hive 都会快得多。

您可以尝试在 Map Reduce 上增加映射器和化简器的数量以获得一些性能提升,看看这个post。

Hive 本质上是一个构建在 HDFS 之上的数据仓库工具,并且每个查询都位于其下,它本身就是一个 Map Reduce 任务。所以上面的帖子也会回答这个问题。

【讨论】:

以上是关于Hbase mapreduce 交互的主要内容,如果未能解决你的问题,请参考以下文章

HBase与MapReduce交互

HBase与MapReduce交互

HBase 与Hive数据交互整合过程详解

解决 hive maPredue转换hivesql出错Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.a

解决 hive maPredue转换hivesql出错Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.a

Hive--简介