Hadoop Streaming开发要点

Posted Jayson

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop Streaming开发要点相关的知识,希望对你有一定的参考价值。

一.shell脚本中的相关配置

 1 HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"
 2 STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"
 3 
 4 INPUT_FILE_PATH="/input.txt"
 5 OUTPUT_PATH="/output"
 6 
 7 $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH
 8 
 9 $HADOOP_CMD jar $STREAM_JAR_PATH 
10       -input  $INPUT_FILE_PATH  11       -output  $OUTPUT_PATH  \ 
12       -mapper  "python map.py"  \ 
13       -reducer  "python red.py"  14       -file  map.py  15       -file  red.py  16       -jobfonf  mapred.job.name="xxx"    

-input : 指定作业的输入文件的HDFS路径, 支持使用*通配符, 支持指定多个文件或目录, 可多次使用

-output : 指定作业的输出文件的HDFS路径, 输出目录不能存在, 执行作业的用户必须有创建该目录的权限, 只能使用一次

-mapper : 自己写的map程序

-reducer : 自己写的reduce程序

-file : 分发文件到计算节点中, 包括map和reduce的执行文件, 以及map和reduce要用的输入文件, 如配置文件. 类似的配置还有-cacheFile,-cacheArchive分别用于向计算节点分发HDFS文件和HDFS压缩文件.(注意: 当输入文件比较大的时候需要先放到HDFS中, 不能用-file分发方式)

-jobconf : 提交作业的一些配置属性.

  常见配置:

  (1)mapred.map.tasks : map task数目

  (2)mapred.reduce.tasks : reduce task数目

  (3)stream.num.map.output.key.fileds : 指定map task输出记录中key所占的域数目(也就是用几个字段做为key)

  (4)num.key.fields.for.partition : 指定对key分出来的前几个部分做partition而不是整个key

  其它配置:

  mapred.job.name                        作业名

  mapred.job.priority                   作业优先级

  mapred.job.map.capacity           最多同时运行map任务数

  mapred.job.reduce.capacity          最多同时运行reduce任务数

  mapred.task.timeout                     任务没有响应(输入输出)的最大时间

  mapred.compress.map.output           map的输出是否压缩

  mapred.map.output.compression.codec      map的输出压缩方式

  mapred.out.compress                                  reduce的输出是否压缩

  mapred.output.compression.codec            reduce的输出压缩方式

  stream.map.output.field.separator        map输出分隔符

 

以上是关于Hadoop Streaming开发要点的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop Streaming 使用及参数设置

大数据Hadoop Streaming编程实战之C++PhpPython

技术干货流式计算 Spark Streaming 和 Storm 对比

hadoop streaming 中跑python程序,自定义模块的导入

Spark-Streaming hdfs count 案例

提交hadoop-streaming作业:yarn还是hadoop?