如何使用 oozie 启动 N 次脚本 Pig?
Posted
技术标签:
【中文标题】如何使用 oozie 启动 N 次脚本 Pig?【英文标题】:How to launch N times a script Pig using oozie? 【发布时间】:2015-03-16 10:13:43 【问题描述】:我需要处理很多带有特定日期的文件。我只找到一个解决方案,即每次使用不同的数据集启动 N 次作业。使用的分区基于 yyyy、mm、dd。我有一个 java 操作,可以生成用于每个数据的良好分区。
我的问题是,如何创建一个循环来启动我的脚本 N 次?我今天使用 oozie 工作流程。
谢谢
【问题讨论】:
【参考方案1】:这听起来像是coordinators 的用例。
您可以声明 Datasets 并让 oozie 在特定数据集实例可用时自动启动工作流。
【讨论】:
这个。通过描述包含年、月和日的 URI 来声明数据集,并给它一个频率(例如 1 天)。然后,您可以使用该数据集的一个或多个实例作为输入来开始您的猪工作。例如,这允许您通过指定起始实例 ($coord:current(-10)) 和结束实例 ($coord:current(0)) 来使用最后 x 个实例作为输入。以上是关于如何使用 oozie 启动 N 次脚本 Pig?的主要内容,如果未能解决你的问题,请参考以下文章
在 Cloudera Hue 中为 Oozie(调用 PIG 脚本)配置正确的端口