MapReduce实现单词统计
Posted dummyly
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MapReduce实现单词统计相关的知识,希望对你有一定的参考价值。
开发工具:IDEA
mapreduce实现思路:
Map阶段:
a) 从HDFS的源数据文件中逐行读取数据
b) 将每一行数据切分出单词
c) 为每一个单词构造一个键值对(单词,1)
d) 将键值对发送给reduce
Reduce阶段:
a) 接收map阶段输出的单词键值对
b) 将相同单词的键值对汇聚成一组
c) 对每一组,遍历组中的所有“值”,累加求和,即得到每一个单词的总次数
d) 将(单词,总次数)输出到HDFS的文件中
代码实现:
porm.xml导入依赖:
导入包:
Map端:
Reduce端:
主函数:
以上是关于MapReduce实现单词统计的主要内容,如果未能解决你的问题,请参考以下文章
Hadoop实例之利用MapReduce实现Wordcount单词统计 (附源代码)
2018-08-05 期 MapReduce实现每个单词在每个文件中坐标信息统计
Hive mapreduce SQL实现原理——SQL最终分解为MR任务,而group by在MR里和单词统计MR没有区别了