MAPREDUCE - 将数据批量加载到 HBASE 表中
Posted
技术标签:
【中文标题】MAPREDUCE - 将数据批量加载到 HBASE 表中【英文标题】:MAPREDUCE - BULK LOADING DATA INTO HBASE TABLE 【发布时间】:2017-01-14 16:04:26 【问题描述】:为什么我们只使用一个驱动类和一个映射器类而不使用减速器类?
【问题讨论】:
【参考方案1】:如果您想对批量加载的数据进行任何聚合,可以使用减速器。
在正常情况下,如果您只是在没有任何聚合的情况下加载。那么只有 mapper 的工作就足够了。
例如:
案例一:
如果您正在读取 CSV 并使用相应的列加载 hbase 表中的所有单词,即没有像 wordcount 这样的聚合。那么只有 mapper 的工作就足够了。
案例2:
如果您正在阅读 csv 并想要进行字数统计等聚合,(这是聚合)然后将其加载到 hbase 中,那么您需要 reducer。
希望澄清..
【讨论】:
以上是关于MAPREDUCE - 将数据批量加载到 HBASE 表中的主要内容,如果未能解决你的问题,请参考以下文章
HBase 批量加载 MapReduce HFile 异常(netty jar)
使用 MapReduce 或 Sqoop 将数据加载到 Greenplum DB