Hadoop-MapReduce
Posted 依 然
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop-MapReduce相关的知识,希望对你有一定的参考价值。
Map:
(1)映射、变换、过滤
(2)1进N出
Reduce:
(1)分解、缩小、归纳
(2)1组进N出
KEY,VAL:
键值对的键划分数据分组
MR计算框架:计算向数据移动;客户端将计算程序打包成jar分发到HDFS的DN上,再通过java
反射机制启动jar程序中的计算方法,实现数据就地计算
数据以一条记录为单位经过map方法映射成KV,相同的key为一组,这一组数据调用一次reduce方法,在方法内迭代计算着一组数据(迭代器模式)
(1):切片(默认一个文件块(block)对应一个切片(split))会格式化记录,以记录为单位调用map方法
(2):map输出映射成KV,kv会参与分区计算,通过key算出P(分区号)
(3):内存缓冲区溢写磁盘时,在内存中先做一个2次排序:分区有序,且分区内key有序相同的key会相邻的排序在一起
(4):reduce的归并排序和reduce方法的计算同时发生
以上是关于Hadoop-MapReduce的主要内容,如果未能解决你的问题,请参考以下文章