Hadoop之mapreduce的wordcount功能

Posted 无心大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop之mapreduce的wordcount功能相关的知识,希望对你有一定的参考价值。


阅读本文大概需要三分钟

1、前提


在hadoop安装好的情况下。

在关闭防火墙的情况下service iptables stop

在启动hadoop的情况下!

start-all.sh


2、创建文件


先在mini1中创建两个文件

cd ~

vi a.txt


Hadoop之mapreduce的wordcount功能

将a.txt复制到b.tx

cp a.txt b.tx


目标:对两个文件进行单词统计,现在两个文件在Linux文件上,现在把他放到hdfs上


在hdfs上创建文件夹

hadoop fs -mkdir -p /wordcount/input

将两个文件传到wordcount/input文件夹里面

hadoop 方式-普通a.txt b.tx /wordcount/input

在浏览器中打开mini1:50070


Hadoop之mapreduce的wordcount功能

到这个里面有


Hadoop之mapreduce的wordcount功能

单击进入wordcount

发现里面有创建的文件夹

打开发现里面还有我们之前传到hdfs的两个文件a.txt和b.tx


Hadoop之mapreduce的wordcount功能


3、运行mapreduce实例


cd /home/hadoop/hadoop-2.6.4/share/hadoop/mapreduce


Hadoop之mapreduce的wordcount功能

里面有这么多内容。

hadoop-mapreduce-examples-2.6.4.jar里面有好多例子,只用其中的wordcount

hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input/ /wordcount/output

前一个是目录是有文件的目录,将单词统计后的内容放到wordcount/output里面。

如果大家可以运行的出来,那么出现的效果是这样子的


Hadoop之mapreduce的wordcount功能

这个截图只截了一部分,最好是没有报错。


4、报错解决


有报错的话我遇到的是这种情况:


Hadoop之mapreduce的wordcount功能

大家看,里面的报错显示时间没同步巴拉巴拉的。百度了一下,有一些说是给了同步时间的方法,需要连接外网,然后我就一直搞怎么连接外网,搞了一天我也没能连接上,莫名其妙,NAT模式下的物理机能Ping的通虚拟机,但是虚拟机ping不通物理机,也Ping不通外网,搞了一天也没搞出来。所以第二天我就继续查,找到另外一种方法:


Hadoop之mapreduce的wordcount功能

从CSDN里面找到的,然后就按照他说的安装了ntp服务yum install ntp

然后修改conf。


这个是按照里面的内容修改好之后的, 其中删除了四个server。

然后修改好了之后还是有错误!但是可以运行出来了!奇怪!

我看里面的错误有3个,就猜测是我集群里面其他三台机器的ntp服务没有设置!

于是我再去设置其他三台!

设置好了之后!完美!成功了。。。。QAQ一把辛酸泪。

成功之后可以在mini1:50070里面找到统计的结果。





END


以上是关于Hadoop之mapreduce的wordcount功能的主要内容,如果未能解决你的问题,请参考以下文章

大数据Hadoop之MapReduce

Big Data - Hadoop - MapReduce初学Hadoop之图解MapReduce与WordCount示例分析

大数据技术之Hadoop(MapReduce)

Hadoop 执行引擎之 MapReduce

Hadoop之MapReduce基础

大数据之Hadoop(MapReduce): MapReduce概述