Hadoop学习之运行官方案例

Posted The_Blue_Sky

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop学习之运行官方案例相关的知识,希望对你有一定的参考价值。

Hadoop的官方案例都在mapreduce.jar文件夹中,提供了mapreduce的基本功能,可用于计算,eg:pi值,计算文档中的字数等  官方案例都在 hadoop-mapreduce-examples-2.7.3.jar 这个jar包中。

命令:hadoop jar ./hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

 

运行grep案例(参考ApatchHadoop官网关于grep的案例的运行   grep:值得是文件内字符串查找,即在一堆文字中查找与正则匹配的单词出现的次数)

命令:hadoop jar ./hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep

Grep  <inDir>  <outDir> <regex> [<group>]   //grep 输入路径 输出路径 正则表达式 【可选:分组】

在home目录下中创建input目录  命令:mkdir /home/input 

拷贝etc/hadoop目录底下所有的.xml配置文件到刚才创建的input目录中  命令:cp ./hadoop-2.7.1/etc/hadoop/*.xml /home/input/ 
查看input目录:有多个后缀为.xml的配置文件  令:ll /home/input 

 
使用hadoop jar命令执行本次任务   
tips:grep后/home/input是输入路径,/home/output是输出路径,\'dfs[a-z.]+\'是正则表达式
 命令:hadoop jar ./hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep /home/input /home/output \'dfs[a-z,]+

 

查看home目录底下多了个output目录   命令:ls /home 

查看output文件内容    命令:ll /home/output

 

查看运行结果    命令:cat /home/output/part-r-00000

tips:

1,output目录不能自己提前创建,否则会出错。这是为了保证目录不掺杂其他结果,output应该是hadoop新自动创建的文件。
2,‘dfs[a-z,]+’指的是grep的正则匹配。即把刚才input目录中所有.xml文档都过滤了一遍找到以dfs开头的单词有多少个。在这里dfsadmin出现了一次。
3,运行该案例成功则说明hadoop安装成功
 
运行wordcount案例
wordcount:单词统计。即在一堆文本文件中统计每个单词出现的次数。
命令: hadoop jar ./hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-
examples-2.7.1.jar wordcount 

 

在home目录中创建input2目录         命令:[root@localhost local]# mkdir /home/input2 

进入到刚刚创建的目录中                 命令:[root@localhost local]# cd /home/input2 
在其中创建一个wordcount.txt文件   命令:[root@localhost intput2]# vi wordcount.txt  
然后在txt文件中随便敲一些单词。

 

然后回到hadoop目录下    命令:[root@hadoop01 input2]# cd /usr/local/hadoop-2.7.3/

运行wordcount案例          命令:[root@hadoop01 hadoop-2.7.3]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-
2.7.3jar wordcount /home/intput2/ /home/output2 

 

查看自动创建的output2目录  命令:[root@hadoop01 hadoop-2.7.3]# ll /home/output2 
查看结果可以看到txt文件中每个单词出现的次数   命令:[root@hadoop01 hadoop-2.7.3]# cat /home/output2/part-r-00000

 

 

以上是关于Hadoop学习之运行官方案例的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop学习之十MapReduce案例分析二-好友推荐

大数据学习之MapReduce编程案例一单词计数 10

hadoop入门学习系列之六hadoop学习之sqoop安装

Hadoop学习之hadoop安装JDK安装集群启动(完全分布式)

大数据Hadoop学习之搭建Hadoop平台(2.1)

Hadoop-2.4.1学习之Streaming编程