Hadoop那些事儿---MapReduce编程浅析
Posted 光光-Leo
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop那些事儿---MapReduce编程浅析相关的知识,希望对你有一定的参考价值。
1.map和reduce
1.1 mapReduce处理逻辑
在本系列文章的第一篇中,曾对MapReduce原理做过简单的描述,在这里再重述一遍。
首先我们有两个文件word1.txt和word2.txt
其中word1.txt的内容如下:
aaaa
bbbb
cccc
dddd
aaaa
word2.txt的内容如下:
aaaa
cccc
dddd
eeee
aaaa
这里的两个文件很小,我们先假设这两个文件很大,分别为64M和96M的大小,然后我们需要统计文件中每个字符串的数量,那么MapReduce的处理流程如下:
Input:最左边是输入的过程,输入了图示的数据。
Split分片:mapreduce会根据输入的文件计算分片,每个分片对应与一个map任务。而分片的过程和HDFS密切相关,比如HDFS的一个block大小为64M,我们输入的两个文件分比为64M,96M,这样的话第一个文件生成一个64M的分片&#
以上是关于Hadoop那些事儿---MapReduce编程浅析的主要内容,如果未能解决你的问题,请参考以下文章