MapReduce实现单词统计

Posted dummyly

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MapReduce实现单词统计相关的知识,希望对你有一定的参考价值。

 开发工具:IDEA

mapreduce实现思路:

Map阶段:

a) HDFS的源数据文件中逐行读取数据

b) 将每一行数据切分出单词

c) 为每一个单词构造一个键值对(单词,1)

d) 将键值对发送给reduce

 

Reduce阶段

a) 接收map阶段输出的单词键值对

b) 将相同单词的键值对汇聚成一组

c) 对每一组,遍历组中的所有“值”,累加求和,即得到每一个单词的总次数

d) (单词,总次数)输出到HDFS的文件中

代码实现:

porm.xml导入依赖:

技术分享图片

 

导入包:

技术分享图片

Map端:

技术分享图片

Reduce端:

技术分享图片

主函数:

技术分享图片

技术分享图片

 

以上是关于MapReduce实现单词统计的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop实例之利用MapReduce实现Wordcount单词统计 (附源代码)

Shell脚本实现MapReduce统计单词数程序

2018-08-05 期 MapReduce实现每个单词在每个文件中坐标信息统计

Hadoop_mapreduce统计文本单词

Hive mapreduce SQL实现原理——SQL最终分解为MR任务,而group by在MR里和单词统计MR没有区别了

MapReduce单词统计