MAPREDUCE - 将数据批量加载到 HBASE 表中

Posted

技术标签:

【中文标题】MAPREDUCE - 将数据批量加载到 HBASE 表中【英文标题】:MAPREDUCE - BULK LOADING DATA INTO HBASE TABLE 【发布时间】:2017-01-14 16:04:26 【问题描述】:

为什么我们只使用一个驱动类和一个映射器类而不使用减速器类?

【问题讨论】:

【参考方案1】:

如果您想对批量加载的数据进行任何聚合,可以使用减速器。

在正常情况下,如果您只是在没有任何聚合的情况下加载。那么只有 mapper 的工作就足够了。

例如:

案例一:

如果您正在读取 CSV 并使用相应的列加载 hbase 表中的所有单词,即没有像 wordcount 这样的聚合。那么只有 mapper 的工作就足够了。

案例2:

如果您正在阅读 csv 并想要进行字数统计等聚合,(这是聚合)然后将其加载到 hbase 中,那么您需要 reducer。

希望澄清..

【讨论】:

以上是关于MAPREDUCE - 将数据批量加载到 HBASE 表中的主要内容,如果未能解决你的问题,请参考以下文章

通过BlukLoad的方式快速导入海量数据

HBase 批量加载 MapReduce HFile 异常(netty jar)

使用 MapReduce 或 Sqoop 将数据加载到 Greenplum DB

HBase结合MapReduce批量导入(HDFS中的数据导入到HBase)

将批量数据从 s3 加载到 redshift

将 CSV 从 GCS 批量加载到 BigQuery 时,表数据是增量查看还是仅在所有文件加载后才可查看?