Hadoop MapReduce 多路径输入与多个输入

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop MapReduce 多路径输入与多个输入相关的知识,希望对你有一定的参考价值。

1. 多路径输入

FileInputFormat 是所有使用文件作为其数据源的 InputFormat 实现的基类,其中一个重要功能就是指定作业的输入文件位置。因为作业的输入被设定为一组路径,这对限定作业输入提供了很强的灵活性。FileInputFormat 类提供了四种静态方法来指定作业的输入路径:

public static void addInputPath(Job job, Path path);
public static void addInputPaths(Job job, String commaSeparatedPaths);
public static void setInputPaths(Job job, Path... inputPaths);
public static void setInputPaths(Job job, String commaSeparatedPaths);

这四种静态方法可以分为两大类:

  • addXXX:其中包含 addInputPath 和 addInputPaths 方法,这两个方法可以将一个或者多个路径加入到路径列表中

  • setXXX:其中包含 setInputPaths 和 setInputPaths 方法,这两个方法一次性将一个或者多个路径设定为完整的路径列表

1.1 addInputPath

使用 FileInputFormat.addInputPath 方法,一次只能指定一个路径。如果想使用该方法实现多路径输入,需要多次调用来加载不同的路径:

FileInputFormat.addInputPath(job, new Path("click/20160427/"));
FileInputFormat.addInputPath(job, new Path("click/20160428/&#

以上是关于Hadoop MapReduce 多路径输入与多个输入的主要内容,如果未能解决你的问题,请参考以下文章

MapReduce wordcount 输入路径为目录 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$

在Hadoop中链接多个MapReduce作业

hadoop 怎么设置多个输入路径

Hadoop学习之路(十五)MapReduce的多Job串联和全局计数器

Hadoop MapReduce 文件路径过滤 GlobStatus 与 PathFilter

Hadoop MapReduce 文件路径过滤 GlobStatus 与 PathFilter