如何使用 oozie 启动 N 次脚本 Pig?

Posted

技术标签:

【中文标题】如何使用 oozie 启动 N 次脚本 Pig?【英文标题】:How to launch N times a script Pig using oozie? 【发布时间】:2015-03-16 10:13:43 【问题描述】:

我需要处理很多带有特定日期的文件。我只找到一个解决方案,即每次使用不同的数据集启动 N 次作业。使用的分区基于 yyyy、mm、dd。我有一个 java 操作,可以生成用于每个数据的良好分区。

我的问题是,如何创建一个循环来启动我的脚本 N 次?我今天使用 oozie 工作流程。

谢谢

【问题讨论】:

【参考方案1】:

这听起来像是coordinators 的用例。

您可以声明 Datasets 并让 oozie 在特定数据集实例可用时自动启动工作流。

【讨论】:

这个。通过描述包含年、月和日的 URI 来声明数据集,并给它一个频率(例如 1 天)。然后,您可以使用该数据集的一个或多个实例作为输入来开始您的猪工作。例如,这允许您通过指定起始实例 ($coord:current(-10)) 和结束实例 ($coord:current(0)) 来使用最后 x 个实例作为输入。

以上是关于如何使用 oozie 启动 N 次脚本 Pig?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 oozie 中将 pig 选项作为参数传递?

在 Cloudera Hue 中为 Oozie(调用 PIG 脚本)配置正确的端口

从 oozie 提交猪作业

在 Oozie 或 pig 运行时重命名文件夹

Pig : 容器在 cdh 5 中使用 oozie 运行超出物理内存限制

无法从 Oozie 工作流作业的第二次运行启动 Hive 操作