如何使用 apache pig 递归加载文件

Posted

技术标签:

【中文标题】如何使用 apache pig 递归加载文件【英文标题】:How to load files recursively using apache pig 【发布时间】:2014-03-14 23:11:03 【问题描述】:

我对 Pig 很陌生,我有一个非常基本的问题:我可以让 Pig 从目录中加载所有文件,包括子文件夹中的文件吗? 这是我如何进行的:

records = LOAD '/worldwide/data/' USING PigStorage() AS (event:chararray, user:chararray);

这里repo/data可能有子文件夹,比如

repo/data/region/cluster1
repo/data/region/cluster2 

我可以让它从这些子目录和将来可能添加的任何新目录中加载所有内容吗?

【问题讨论】:

确认上述语句正常工作并将子目录中的所有数据加载到记录变量中。 【参考方案1】:

确认上述语句正常工作并将子目录中的所有数据加载到记录变量中。

【讨论】:

以上是关于如何使用 apache pig 递归加载文件的主要内容,如果未能解决你的问题,请参考以下文章

使用 Apache Pig 将数据加载到 Hbase 表时,如何排除 csv 或文本文件中没有数据(只有空格)的列?

Apache pig:如何将 ignoreBadFiles 标签与加载功能一起使用?

如何使用 apache pig 将标题行加入多个文件中的详细行

Apache Pig 如何在加载功能中加入白名单或黑名单?

如何使用 apache Pig 插入过滤数据的索引?

执行远程 Apache Pig 脚本时如何查看终端日志