大数据05 MapReduce

Posted 神之一招

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据05 MapReduce相关的知识,希望对你有一定的参考价值。

MapReduce: 分布式并行编程, 也就是多台机器的 CPU 之间的并行编程.

 

MapReduce 帮你自动实现底层.

 

分而治之的策略:

 

理念:

 

 

 

 

 

 

 

 

 

 

 

 实例:

 

两个文件, 统计这两个文件中单词的个数

 

 

 key:单词, value:出现次数

 

reduce: key - value list. 用 Iterable 容器

 

 

 

 

 

 这里的 Word Count 是类的名称

 

 

以上是关于大数据05 MapReduce的主要内容,如果未能解决你的问题,请参考以下文章

大数据框架之Hadoop:MapReduceMapReduce框架原理——Join多种应用

大数据技术栈

大数据离线

MapReduceMapReduce中的分区方法Partitioner

大数据学习之七——MapReduce简单代码实例

hadoop离线day04--Hadoop MapReduce