Hadoop MapReduce 文件路径过滤 GlobStatus 与 PathFilter

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop MapReduce 文件路径过滤 GlobStatus 与 PathFilter相关的知识,希望对你有一定的参考价值。

1. 丢失文件路径过滤

应用场景:我们想查询一个月以来度假的订单数据,但是HDFS中可能因为业务故障,导致某一天的订单数据不存在:

FileInputFormat.setInputPaths(job, inputPath);

上述代码在遇到路径不存在的时候会报错。

所以在设置路径之前需要进行一次判断,判断这个路径在HDFS上是否存在,如果存在,使用addInputPath方法添加:

FileSystem fileSystem = FileSystem.get(conf)

以上是关于Hadoop MapReduce 文件路径过滤 GlobStatus 与 PathFilter的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop MapReduce 多路径输入与多个输入

MapReduce报错:「MKDirs failed to create file」

hadoop之mapreduce编程实例(系统日志初步清洗过滤处理)

hadoop MapReduce 读取配置参数

Hadoop MapReduce

Hadoop之MapReduce 本机windows模式运行