AWS EMR 与 Glue 目录,明确指定 catalogId

Posted

技术标签:

【中文标题】AWS EMR 与 Glue 目录,明确指定 catalogId【英文标题】:AWS EMR with Glue catalog, specify catalogId explicitly 【发布时间】:2018-09-14 20:15:48 【问题描述】:

有没有办法在 EMR 配置中明确指定 Glue catalogId?

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html

这显示了如何在 EMR 中为 Hive 元存储指定使用 Glue,但没有记录任何参数来指定将传递给 Glue API 调用的 catalogId(可能默认为帐户 ID)。

文档后面确实提到“...如果集群位于不同的 AWS 账户中”,这似乎暗示有一种方法可以将 EMR 集群指向不同账户中的 Glue 目录。

【问题讨论】:

【参考方案1】:

这似乎是最近添加的。相关属性为hive.metastore.glue.catalogid,在hive-site

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html

“此外,借助 Amazon EMR 5.16.0 及更高版本,您可以使用配置分类在不同的 AWS 账户中指定数据目录。”

“要在不同的 AWS 账户中指定数据目录,请添加 hive.metastore.glue.catalogid 属性,如下例所示”

【讨论】:

以上是关于AWS EMR 与 Glue 目录,明确指定 catalogId的主要内容,如果未能解决你的问题,请参考以下文章

针对 AWS EMR 的 AWS Glue 定价

我们可以将 AWS Glue 视为 EMR 的替代品吗?

我们可以将AWS Glue视为EMR的替代品吗?

Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同

Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同

通过 AWS Glue Crawler 识别并存储在数据目录中的表的异常