Hadoop MapReduce 多路径输入与多个输入
Posted @SmartSi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop MapReduce 多路径输入与多个输入相关的知识,希望对你有一定的参考价值。
1. 多路径输入
FileInputFormat 是所有使用文件作为其数据源的 InputFormat 实现的基类,其中一个重要功能就是指定作业的输入文件位置。因为作业的输入被设定为一组路径,这对限定作业输入提供了很强的灵活性。FileInputFormat 类提供了四种静态方法来指定作业的输入路径:
public static void addInputPath(Job job, Path path);
public static void addInputPaths(Job job, String commaSeparatedPaths);
public static void setInputPaths(Job job, Path... inputPaths);
public static void setInputPaths(Job job, String commaSeparatedPaths);
这四种静态方法可以分为两大类:
-
addXXX:其中包含 addInputPath 和 addInputPaths 方法,这两个方法可以将一个或者多个路径加入到路径列表中
-
setXXX:其中包含 setInputPaths 和 setInputPaths 方法,这两个方法一次性将一个或者多个路径设定为完整的路径列表
1.1 addInputPath
使用 FileInputFormat.addInputPath 方法,一次只能指定一个路径。如果想使用该方法实现多路径输入,需要多次调用来加载不同的路径:
FileInputFormat.addInputPath(job, new Path("click/20160427/"));
FileInputFormat.addInputPath(job, new Path("click/20160428/&#
以上是关于Hadoop MapReduce 多路径输入与多个输入的主要内容,如果未能解决你的问题,请参考以下文章
MapReduce wordcount 输入路径为目录 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$
Hadoop学习之路(十五)MapReduce的多Job串联和全局计数器