Hadoop那些事儿---MapReduce编程浅析

Posted 光光-Leo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop那些事儿---MapReduce编程浅析相关的知识,希望对你有一定的参考价值。

1.map和reduce

1.1 mapReduce处理逻辑

在本系列文章的第一篇中,曾对MapReduce原理做过简单的描述,在这里再重述一遍。
首先我们有两个文件word1.txt和word2.txt
其中word1.txt的内容如下:

aaaa
bbbb
cccc
dddd
aaaa

word2.txt的内容如下:

aaaa
cccc
dddd
eeee
aaaa

这里的两个文件很小,我们先假设这两个文件很大,分别为64M和96M的大小,然后我们需要统计文件中每个字符串的数量,那么MapReduce的处理流程如下:
这里写图片描述
Input:最左边是输入的过程,输入了图示的数据。
Split分片:mapreduce会根据输入的文件计算分片,每个分片对应与一个map任务。而分片的过程和HDFS密切相关,比如HDFS的一个block大小为64M,我们输入的两个文件分比为64M,96M,这样的话第一个文件生成一个64M的分片&#

以上是关于Hadoop那些事儿---MapReduce编程浅析的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop那些事儿---Hive安装与配置

美国Hadoop大数据公司投资那些事儿

流式计算领域新霸主Flink的那些事儿

YARN 资源调度那些事儿

iOS开发那些事儿Objective-C浅拷贝与深拷贝

技术浅谈Hadoop中mapreduce执行速度的问题