16-hadoop-mapreduce简介

Posted bronk

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了16-hadoop-mapreduce简介相关的知识,希望对你有一定的参考价值。

mapreduce是hadoop的核心组件, 设计理念是移动计算而不是移动数据,

mapreduce的思想是\'分而治之\', 将复杂的任务分解成几个简单的任务去执行

1, 数据和计算规模大大减少
2, 就近计算, 移动计算
3, 小任务并行计算, 彼此间没有依赖

  

共分为4个步骤: 

 

1, split

切分blcok, 切分为数据片段, split0, split1, split2

 

计算公式为: 

2, map

自定义的程序, 根据业务需求来的,

map任务的多少, 根据碎片的多少来的, 即上一步切分为多少个split , 每个split位一个线程,  split传递的数据为 key-value的形式, 输出形式也为键值对

 

 

相同key的数据, 输出为一组数据, 然后将数据进行下一步, 洗牌(sharp)

  

3, shuffler

 包括 sort 和 merger, 把mapper输出的的数据进行切分, 排序, 组合等操作, 吧key符合某种范围的输出到特定的reducer那里

 

 过程为: 

 

 

 

4, reduce

reduce的数量, 

 

一个mapreduce 默认 只有一个reduce , 可通过配置分区数来更改reduce的数量

 

以上是关于16-hadoop-mapreduce简介的主要内容,如果未能解决你的问题,请参考以下文章

Android 逆向Linux 文件权限 ( Linux 权限简介 | 系统权限 | 用户权限 | 匿名用户权限 | 读 | 写 | 执行 | 更改组 | 更改用户 | 粘滞 )(代码片段

SpringCloud系列十一:SpringCloudStream(SpringCloudStream 简介创建消息生产者创建消息消费者自定义消息通道分组与持久化设置 RoutingKey)(代码片段

C#-WebForm-★内置对象简介★Request-获取请求对象Response相应请求对象Session全局变量(私有)Cookie全局变量(私有)Application全局公共变量Vi(代码片段

react简介

react简介

在PaddlePaddle中的Notebook代码片段