Hbase mapreduce 交互

Posted 2023-04-18

技术标签:

【中文标题】Hbase mapreduce 交互【英文标题】：Hbase mapreduce interaction 【发布时间】：2012-11-09 07:39:24 【问题描述】：

我有一个程序 hbase 和 mapreduce。

我将数据存储在 HDFS 中，这个文件的大小是：100G。现在我将这些数据放到 Hbase 中。

我使用 mapreduce 扫描这个文件丢失了 5 分钟。但是扫描hbase表丢失了30分钟。

使用hbase和mapreduce如何提高速度？

谢谢。

【问题讨论】：

【参考方案1】：

我假设您使用的是单节点 HDFS。如果您将 100Gb 文件放在 HDFS 的多节点集群中，那么 Map Reduce 和 Hive 都会快得多。

您可以尝试在 Map Reduce 上增加映射器和化简器的数量以获得一些性能提升，看看这个post。

Hive 本质上是一个构建在 HDFS 之上的数据仓库工具，并且每个查询都位于其下，它本身就是一个 Map Reduce 任务。所以上面的帖子也会回答这个问题。

【讨论】：

以上是关于Hbase mapreduce 交互的主要内容，如果未能解决你的问题，请参考以下文章