AWS EMR Hadoop 管理

Posted

技术标签:

【中文标题】AWS EMR Hadoop 管理【英文标题】:AWS EMR Hadoop Administration 【发布时间】:2015-05-26 04:35:48 【问题描述】:

我们目前在我们的组织中使用 Apache Hadoop(Vanilla 版本)。我们计划迁移到 AWS EMR。我试图了解 AWS EMR Hadoop 如何在内部工作(而不是如何使用它),我主要对 Hadoop 管理步骤以及主从如何通信以及各种配置配置感兴趣。我已经查看了 AWS EMR 文档,但没有看到详细的比较。

有人可以向我推荐一个从 Apache Hadoop 迁移到 AWS EMR 的链接/教程吗?

【问题讨论】:

你的团队有看过 Qubole 吗?我们有许多客户从内部 Hadoop 和 EMR 迁移过来,并从自动扩展、现场实例集成以及总体上卓越的性能和管理中受益匪浅。 【参考方案1】:

在 EMR 集群创建过程中,它会要求您指定 Master 和 Node。默认设置将为您提供 1 个主节点和两个节点。您还可以指定您希望集群中的所有应用程序(例如:hadoop、hive、spark、zeppelin、hue 等)。

创建集群后,它将提供所有服务。您可以单击这些服务并通过 Web 访问它们,或者使用 ssh 进入主服务器。例如:要访问 ambari 界面,请转到 EMR 中的服务并单击它。将使用 ambari 监控服务界面启动一个新窗口。

安装这些应用程序非常简单。您所要做的就是在创建集群时指定所有服务。

【讨论】:

【参考方案2】:

Amazon Elastic MapReduce 使用 Hadoop 和相关工具的大部分标准实施。

见:AMI Versions Supported in Amazon EMR

使用 EMR 的好处在于自动部署实例。例如,使用适当的 AMI 启动集群意味着软件已加载到每个实例上,并且 HDFS 已跨核心节点进行配置。

主节点和从节点(核心/任务)节点的通信方式与它们在任何 Hadoop 集群中的通信方式完全相同。但是,仅支持一个 Master(没有备份 Master)。

迁移到 EMR 时,请检查您是否使用兼容版本的软件(例如 Hadoop、Hive、Pig、Impala 等)。还可以考虑使用 Amazon S3 而非 HDFS 来存储数据,尤其是用于存储源数据,因为 S3 上的数据即使在 EMR 集群终止后仍然存在。

【讨论】:

【参考方案3】:

从技术上讲,与 EMR 一起提供的 Hadoop 可以回溯几个版本。您应该查看 EMR 发行说明,了解每个版本提供的详细应用程序。 EMR 负责应用程序的供应、设置和配置。根据 EC2 实例类型,Hadoop(和其他应用程序配置)会发生变化。您可以使用配置应用程序覆盖默认设置。

除此 Hadoop 外,您的本地部署和 EMR 应该相同。

【讨论】:

以上是关于AWS EMR Hadoop 管理的主要内容,如果未能解决你的问题,请参考以下文章

[AWS][大数据][Hadoop] 使用EMR做大数据分析

在 AWS EMR 上的 PySpark 脚本上找不到 com.amazon.ws.emr.hadoop.fs.EmrFileSystem

AWS EMR 文件已存在:Hadoop 作业读取和写入 S3

从 Hadoop 1.0.3 中 AWS EMR 上的 HDFS 清除数据

AWS EMR kerberizing 集群 hadoop.security.AccessControlException

通过AWS EMR降低集群计算成本