AWS EMR 与 Glue 目录,明确指定 catalogId
Posted
技术标签:
【中文标题】AWS EMR 与 Glue 目录,明确指定 catalogId【英文标题】:AWS EMR with Glue catalog, specify catalogId explicitly 【发布时间】:2018-09-14 20:15:48 【问题描述】:有没有办法在 EMR 配置中明确指定 Glue catalogId?
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html
这显示了如何在 EMR 中为 Hive 元存储指定使用 Glue,但没有记录任何参数来指定将传递给 Glue API 调用的 catalogId(可能默认为帐户 ID)。
文档后面确实提到“...如果集群位于不同的 AWS 账户中”,这似乎暗示有一种方法可以将 EMR 集群指向不同账户中的 Glue 目录。
【问题讨论】:
【参考方案1】:这似乎是最近添加的。相关属性为hive.metastore.glue.catalogid
,在hive-site
内
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html
“此外,借助 Amazon EMR 5.16.0 及更高版本,您可以使用配置分类在不同的 AWS 账户中指定数据目录。”
“要在不同的 AWS 账户中指定数据目录,请添加 hive.metastore.glue.catalogid
属性,如下例所示”
【讨论】:
以上是关于AWS EMR 与 Glue 目录,明确指定 catalogId的主要内容,如果未能解决你的问题,请参考以下文章
Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同