Mapreduce编程-----WordCount程序编写及运行

Posted 会编程的李较瘦

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Mapreduce编程-----WordCount程序编写及运行相关的知识,希望对你有一定的参考价值。

一、MapReduce概述

1.核心思想

MapReduce的核心思想是“分而治之”,就是把一个复杂的问题,按照一定的“分解”方式分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果。

2.Map和Reduce阶段介绍

Map Reduce作为一种分布式计算模型,它主要用于解决海量数据的计算问题。使用MapReduce分析海量数据时,每个MapReduce程序被初始化为一个工作任务,每个工作任务可以分为Map和Reduce两个阶段,具体介绍如下:

(1)Map阶段

负责将任务进行分解,处理数据,为reduce端做准备。

(2)Reduce阶段

进行汇总操作,得到最终结果

二、MapReduce编程模型

1.将原始数据处理成键值对<K1,V1>形式
2.将解析后的键值对<K1,V1>传给map()函数,map()函数会根据映射规则,将键值对<K1,V1>映射为一系列中间结果形式的键值对<K2,V2>.
3.将中间形式的键值对<K2,V2>形成<K2,v2,……>形式传给reduce()函数处理,把具有相同key的value合并在一起,产生新的键值对<K3,V3>,此时的<K3,V3>就是最终输出结果。

三、WordCount编程实例

1.在IDEA中新建项目:File—>New—>Project


2.创建lib文件夹:选中项目名,右键new—>Directory


3.导入相关依赖jar包

选择hadoop的包,我用得是hadoop2.4.1。把下面的依赖包都加入到工程中,否则会出现某个类找不到的错误。

(1)”hadoop2.4.1/share/hadoop/common”目录下的hadoop-common-2.4.1.jar和haoop-nfs-2.4.1.jar;

(2)hadoop2.4.1/share/hadoop/common/lib”目录下的所有JAR包;

(3)hadoop2.4.1/share/hadoop/hdfs”目录下的haoop-hdfs-2.41.jar和haoop-hdfs-nfs-2.4.1.jar;

(4)“hadoop2.4.1/share/hadoop/hdfs/lib”目录下的所有JAR包。

4.将第3步中添加的外部jar添加到IntelliJ IDEA项目

选中lib文件夹—>右键—>add as library

以上是关于Mapreduce编程-----WordCount程序编写及运行的主要内容,如果未能解决你的问题,请参考以下文章

MapReduce编程之实例分析:wordCount

MapReduce编程初步(WordCount,TopN)

MapReduce编程模型wordcount

Mapreduce编程-----WordCount程序编写及运行

Mapreduce编程-----WordCount程序编写及运行

Hadoop MapReduce编程 API入门系列之wordcount版本5