MapReduce深入

Posted xumaomao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MapReduce深入相关的知识,希望对你有一定的参考价值。

 

技术图片

 

hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。

输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写入磁盘,在写入磁盘的过程中会进行分区、排序。

把数据按键hash分区得到多个partition,保证同个键的数据落入同一个分区,partition数目一般和reduce数目一致(也可以是reduce数目的倍数)。

 

以上是关于MapReduce深入的主要内容,如果未能解决你的问题,请参考以下文章

深入浅出MapReduce

第2节 mapreduce深入学习:7MapReduce的规约过程combiner

深入理解MapReduce的架构及原理

走进大数据|深入学习 MapReduce

深入MapReduce计算引擎02

2021年大数据Hadoop(十八):MapReduce程序运行模式和深入解析