如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪
Posted
技术标签:
【中文标题】如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪【英文标题】:How to start pig with -t ColumnMapKeyPrune on aws emr 【发布时间】:2017-07-19 07:22:03 【问题描述】:在我的猪脚本中,我希望每个记录的文件名用于进一步处理,因此我使用了 -tagFile 选项。现在使用 -tagFile 选项后,列名变得不对齐,所以我在引用此博客后使用以下命令仅获取所需的列:http://www.webopius.com/content/764/resolved-apache-pig-with-tagsource-tagfile-option-generates-incorrect-columns
pig -x mapreduce -t ColumnMapKeyPrune
现在我想在 AWS EMR 上运行脚本,但我不确定如何在 EMR Pig 上启用 -t ColumnMapKeyPrune 选项。?
我正在使用 AWS CLI 创建 aws 集群并提交作业。 有关如何在 EMR Pig 上启用 -t ColumnMapKeyPrune 的任何指针?
【问题讨论】:
【参考方案1】:我得到了解决方案。我需要在猪脚本中添加以下行:
set pig.optimizer.rules.disabled 'ColumnMapKeyPrune';
【讨论】:
以上是关于如何在 aws emr 上使用 -t ColumnMapKeyPrune 启动猪的主要内容,如果未能解决你的问题,请参考以下文章
在不使用 aws 凭据的情况下连接 Redshift 和 Python(在 emr 上运行)
Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同
Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同