AWS EMR Hadoop 管理

Posted 2023-04-17

技术标签:

【中文标题】AWS EMR Hadoop 管理【英文标题】：AWS EMR Hadoop Administration 【发布时间】：2015-05-26 04:35:48 【问题描述】：

我们目前在我们的组织中使用 Apache Hadoop（Vanilla 版本）。我们计划迁移到 AWS EMR。我试图了解 AWS EMR Hadoop 如何在内部工作（而不是如何使用它），我主要对 Hadoop 管理步骤以及主从如何通信以及各种配置配置感兴趣。我已经查看了 AWS EMR 文档，但没有看到详细的比较。

有人可以向我推荐一个从 Apache Hadoop 迁移到 AWS EMR 的链接/教程吗？

【问题讨论】：

你的团队有看过 Qubole 吗？我们有许多客户从内部 Hadoop 和 EMR 迁移过来，并从自动扩展、现场实例集成以及总体上卓越的性能和管理中受益匪浅。 【参考方案1】：

在 EMR 集群创建过程中，它会要求您指定 Master 和 Node。默认设置将为您提供 1 个主节点和两个节点。您还可以指定您希望集群中的所有应用程序（例如：hadoop、hive、spark、zeppelin、hue 等）。

创建集群后，它将提供所有服务。您可以单击这些服务并通过 Web 访问它们，或者使用 ssh 进入主服务器。例如：要访问 ambari 界面，请转到 EMR 中的服务并单击它。将使用 ambari 监控服务界面启动一个新窗口。

安装这些应用程序非常简单。您所要做的就是在创建集群时指定所有服务。

【讨论】：

【参考方案2】：

Amazon Elastic MapReduce 使用 Hadoop 和相关工具的大部分标准实施。

见：AMI Versions Supported in Amazon EMR

使用 EMR 的好处在于自动部署实例。例如，使用适当的 AMI 启动集群意味着软件已加载到每个实例上，并且 HDFS 已跨核心节点进行配置。

主节点和从节点（核心/任务）节点的通信方式与它们在任何 Hadoop 集群中的通信方式完全相同。但是，仅支持一个 Master（没有备份 Master）。

迁移到 EMR 时，请检查您是否使用兼容版本的软件（例如 Hadoop、Hive、Pig、Impala 等）。还可以考虑使用 Amazon S3 而非 HDFS 来存储数据，尤其是用于存储源数据，因为 S3 上的数据即使在 EMR 集群终止后仍然存在。

【讨论】：

【参考方案3】：

从技术上讲，与 EMR 一起提供的 Hadoop 可以回溯几个版本。您应该查看 EMR 发行说明，了解每个版本提供的详细应用程序。 EMR 负责应用程序的供应、设置和配置。根据 EC2 实例类型，Hadoop（和其他应用程序配置）会发生变化。您可以使用配置应用程序覆盖默认设置。

除此 Hadoop 外，您的本地部署和 EMR 应该相同。

【讨论】：

以上是关于AWS EMR Hadoop 管理的主要内容，如果未能解决你的问题，请参考以下文章

[AWS][大数据][Hadoop] 使用EMR做大数据分析

在 AWS EMR 上的 PySpark 脚本上找不到 com.amazon.ws.emr.hadoop.fs.EmrFileSystem

AWS EMR 文件已存在：Hadoop 作业读取和写入 S3

从 Hadoop 1.0.3 中 AWS EMR 上的 HDFS 清除数据

AWS EMR kerberizing 集群 hadoop.security.AccessControlException

通过AWS EMR降低集群计算成本