如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪

Posted

技术标签:

【中文标题】如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪【英文标题】:How to start pig with -t ColumnMapKeyPrune on aws emr 【发布时间】:2017-07-19 07:22:03 【问题描述】:

在我的猪脚本中,我希望每个记录的文件名用于进一步处理,因此我使用了 -tagFile 选项。现在使用 -tagFile 选项后,列名变得不对齐,所以我在引用此博客后使用以下命令仅获取所需的列:http://www.webopius.com/content/764/resolved-apache-pig-with-tagsource-tagfile-option-generates-incorrect-columns

pig -x mapreduce -t ColumnMapKeyPrune

现在我想在 AWS EMR 上运行脚本,但我不确定如何在 EMR Pig 上启用 -t ColumnMapKeyPrune 选项。?

我正在使用 AWS CLI 创建 aws 集群并提交作业。 有关如何在 EMR Pig 上启用 -t ColumnMapKeyPrune 的任何指针?

【问题讨论】:

【参考方案1】:

我得到了解决方案。我需要在猪脚本中添加以下行:

set pig.optimizer.rules.disabled 'ColumnMapKeyPrune';

【讨论】:

以上是关于如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪的主要内容,如果未能解决你的问题,请参考以下文章

如何在多个子网上运行 AWS EMR 集群?

在不使用 aws 凭据的情况下连接 Redshift 和 Python(在 emr 上运行)

Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同

Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同

在 AWS EMR 上设置 Spark Thrift 服务器以建立 JBDC/ODBC 连接

在 AWS EMR 上使用 Spark 访问关系数据库