如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪

Posted 2023-04-17

技术标签:

【中文标题】如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪【英文标题】：How to start pig with -t ColumnMapKeyPrune on aws emr 【发布时间】：2017-07-19 07:22:03 【问题描述】：

在我的猪脚本中，我希望每个记录的文件名用于进一步处理，因此我使用了 -tagFile 选项。现在使用 -tagFile 选项后，列名变得不对齐，所以我在引用此博客后使用以下命令仅获取所需的列：http://www.webopius.com/content/764/resolved-apache-pig-with-tagsource-tagfile-option-generates-incorrect-columns

pig -x mapreduce -t ColumnMapKeyPrune

现在我想在 AWS EMR 上运行脚本，但我不确定如何在 EMR Pig 上启用 -t ColumnMapKeyPrune 选项。？

我正在使用 AWS CLI 创建 aws 集群并提交作业。有关如何在 EMR Pig 上启用 -t ColumnMapKeyPrune 的任何指针？

【问题讨论】：

【参考方案1】：

我得到了解决方案。我需要在猪脚本中添加以下行：

set pig.optimizer.rules.disabled 'ColumnMapKeyPrune';

【讨论】：

以上是关于如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪的主要内容，如果未能解决你的问题，请参考以下文章