Hadoop之mapreduce的wordcount功能
Posted 无心大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop之mapreduce的wordcount功能相关的知识,希望对你有一定的参考价值。
阅读本文大概需要三分钟
1、前提
在hadoop安装好的情况下。
在关闭防火墙的情况下service iptables stop
在启动hadoop的情况下!
start-all.sh
2、创建文件
先在mini1中创建两个文件
cd ~
vi a.txt
将a.txt复制到b.tx
cp a.txt b.tx
目标:对两个文件进行单词统计,现在两个文件在Linux文件上,现在把他放到hdfs上
在hdfs上创建文件夹
hadoop fs -mkdir -p /wordcount/input
将两个文件传到wordcount/input文件夹里面
hadoop 方式-普通a.txt b.tx /wordcount/input
在浏览器中打开mini1:50070
到这个里面有
单击进入wordcount
发现里面有创建的文件夹
打开发现里面还有我们之前传到hdfs的两个文件a.txt和b.tx
3、运行mapreduce实例
cd /home/hadoop/hadoop-2.6.4/share/hadoop/mapreduce
里面有这么多内容。
hadoop-mapreduce-examples-2.6.4.jar里面有好多例子,只用其中的wordcount
hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input/ /wordcount/output
前一个是目录是有文件的目录,将单词统计后的内容放到wordcount/output里面。
如果大家可以运行的出来,那么出现的效果是这样子的
这个截图只截了一部分,最好是没有报错。
4、报错解决
有报错的话我遇到的是这种情况:
大家看,里面的报错显示时间没同步巴拉巴拉的。百度了一下,有一些说是给了同步时间的方法,需要连接外网,然后我就一直搞怎么连接外网,搞了一天我也没能连接上,莫名其妙,NAT模式下的物理机能Ping的通虚拟机,但是虚拟机ping不通物理机,也Ping不通外网,搞了一天也没搞出来。所以第二天我就继续查,找到另外一种方法:
从CSDN里面找到的,然后就按照他说的安装了ntp服务yum install ntp
然后修改conf。
这个是按照里面的内容修改好之后的, 其中删除了四个server。
然后修改好了之后还是有错误!但是可以运行出来了!奇怪!
我看里面的错误有3个,就猜测是我集群里面其他三台机器的ntp服务没有设置!
于是我再去设置其他三台!
设置好了之后!完美!成功了。。。。QAQ一把辛酸泪。
成功之后可以在mini1:50070里面找到统计的结果。
以上是关于Hadoop之mapreduce的wordcount功能的主要内容,如果未能解决你的问题,请参考以下文章
Big Data - Hadoop - MapReduce初学Hadoop之图解MapReduce与WordCount示例分析