Amazon EMR 服务与 EMR 集群

Posted

技术标签:

【中文标题】Amazon EMR 服务与 EMR 集群【英文标题】:Amazon EMR Service vs EMR Cluster 【发布时间】:2021-06-26 12:16:49 【问题描述】:

下图来自 AWS 本身,显示了如何在私有子网中配置 EMR 集群。很好。

已声明,子网外部的唯一通信是与 Amazon EMR

有趣的是,我总是在图纸中使用 Amazon EMR 服务图标来指示集群,我认识的其他人也这样做。我在这里想念什么? AWS EMR 服务是什么?

【问题讨论】:

【参考方案1】:

EMR 服务将为您提供用于启动 EMR 集群的库和包。

创建 EMR 集群时,请注意引导日志。它将连接到 Amazon EMR 服务并获取库和包来构建您的环境。这些库来自您的子网外部,由 AWS 自己管理,因此也很明显位于您的 VPC 外部。

【讨论】:

所以,为了清楚起见,由于 EMR 现在只在私有子网中启动,EMR 服务按照您的说明管理所有内容,因此不需要 IGW。 让我更清楚一点:对于 VPC,不需要 IGW,如图所示,即可以访问其他地方的互联网。 好吧,我的说法有点不对,部署在私有子网上不需要igw。 为了确定,我提出了一个更明确的问题。看一看。因为我需要非常清楚。 对此有解释,AWS faq 上发布的原始图像与您的相同,私有子网允许您启动 AWS 资源,而无需子网连接互联网网关。

以上是关于Amazon EMR 服务与 EMR 集群的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Amazon EMR 集群上远程提交 hadoop MR 作业

在 Amazon EMR 集群中运行时,Spark 广播变量返回 NullPointerException

无法在 Amazon EMR 集群上使用 PIG 0.12.0 和 Hadoop 2.4.0 找到 MySql 驱动程序

如何让 Zeppelin 在 EMR 集群上干净地重新启动?

如何在 Amazon EMR 上将连接器添加到 presto

创建 EMR 集群时出错,EMR 服务角色无效