Hadoop-MapReduce

Posted 依 然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop-MapReduce相关的知识,希望对你有一定的参考价值。

Map:

(1)映射、变换、过滤

(2)1进N出

Reduce:

(1)分解、缩小、归纳

(2)1组进N出

KEY,VAL:

键值对的键划分数据分组

MR计算框架:计算向数据移动;客户端将计算程序打包成jar分发到HDFS的DN上,再通过java

反射机制启动jar程序中的计算方法,实现数据就地计算

数据以一条记录为单位经过map方法映射成KV,相同的key为一组,这一组数据调用一次reduce方法,在方法内迭代计算着一组数据(迭代器模式)

(1):切片(默认一个文件块(block)对应一个切片(split))会格式化记录,以记录为单位调用map方法

(2):map输出映射成KV,kv会参与分区计算,通过key算出P(分区号)

(3):内存缓冲区溢写磁盘时,在内存中先做一个2次排序:分区有序,且分区内key有序相同的key会相邻的排序在一起

(4):reduce的归并排序和reduce方法的计算同时发生

以上是关于Hadoop-MapReduce的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop-MapReduce

hadoop-mapreduce--统计单词数量

初识Hadoop-MapReduce

hadoop-MapReduce概述

Hadoop-MapReduce应用-统计单词个数

16-hadoop-mapreduce简介