AWS EMR Hadoop 管理
Posted
技术标签:
【中文标题】AWS EMR Hadoop 管理【英文标题】:AWS EMR Hadoop Administration 【发布时间】:2015-05-26 04:35:48 【问题描述】:我们目前在我们的组织中使用 Apache Hadoop(Vanilla 版本)。我们计划迁移到 AWS EMR。我试图了解 AWS EMR Hadoop 如何在内部工作(而不是如何使用它),我主要对 Hadoop 管理步骤以及主从如何通信以及各种配置配置感兴趣。我已经查看了 AWS EMR 文档,但没有看到详细的比较。
有人可以向我推荐一个从 Apache Hadoop 迁移到 AWS EMR 的链接/教程吗?
【问题讨论】:
你的团队有看过 Qubole 吗?我们有许多客户从内部 Hadoop 和 EMR 迁移过来,并从自动扩展、现场实例集成以及总体上卓越的性能和管理中受益匪浅。 【参考方案1】:在 EMR 集群创建过程中,它会要求您指定 Master 和 Node。默认设置将为您提供 1 个主节点和两个节点。您还可以指定您希望集群中的所有应用程序(例如:hadoop、hive、spark、zeppelin、hue 等)。
创建集群后,它将提供所有服务。您可以单击这些服务并通过 Web 访问它们,或者使用 ssh 进入主服务器。例如:要访问 ambari 界面,请转到 EMR 中的服务并单击它。将使用 ambari 监控服务界面启动一个新窗口。
安装这些应用程序非常简单。您所要做的就是在创建集群时指定所有服务。
【讨论】:
【参考方案2】:Amazon Elastic MapReduce 使用 Hadoop 和相关工具的大部分标准实施。
见:AMI Versions Supported in Amazon EMR
使用 EMR 的好处在于自动部署实例。例如,使用适当的 AMI 启动集群意味着软件已加载到每个实例上,并且 HDFS 已跨核心节点进行配置。
主节点和从节点(核心/任务)节点的通信方式与它们在任何 Hadoop 集群中的通信方式完全相同。但是,仅支持一个 Master(没有备份 Master)。
迁移到 EMR 时,请检查您是否使用兼容版本的软件(例如 Hadoop、Hive、Pig、Impala 等)。还可以考虑使用 Amazon S3 而非 HDFS 来存储数据,尤其是用于存储源数据,因为 S3 上的数据即使在 EMR 集群终止后仍然存在。
【讨论】:
【参考方案3】:从技术上讲,与 EMR 一起提供的 Hadoop 可以回溯几个版本。您应该查看 EMR 发行说明,了解每个版本提供的详细应用程序。 EMR 负责应用程序的供应、设置和配置。根据 EC2 实例类型,Hadoop(和其他应用程序配置)会发生变化。您可以使用配置应用程序覆盖默认设置。
除此 Hadoop 外,您的本地部署和 EMR 应该相同。
【讨论】:
以上是关于AWS EMR Hadoop 管理的主要内容,如果未能解决你的问题,请参考以下文章
[AWS][大数据][Hadoop] 使用EMR做大数据分析
在 AWS EMR 上的 PySpark 脚本上找不到 com.amazon.ws.emr.hadoop.fs.EmrFileSystem
AWS EMR 文件已存在:Hadoop 作业读取和写入 S3
从 Hadoop 1.0.3 中 AWS EMR 上的 HDFS 清除数据
AWS EMR kerberizing 集群 hadoop.security.AccessControlException