在一台机器上运行 Hadoop 集群

Posted

技术标签:

【中文标题】在一台机器上运行 Hadoop 集群【英文标题】:Running a Hadoop cluster on one machine 【发布时间】:2015-04-02 15:30:08 【问题描述】:

我是 Hadoop 环境的新手。 我想知道是否可以使用虚拟机在单机上运行集群(包含 2 或 3 个节点)。

欢迎任何澄清。

谢谢。

【问题讨论】:

【参考方案1】:

是的,我们可以在一台机器上安装许多虚拟机。但是如果我们考虑(例如)cloudera VM 4.7,它需要每个 4 Gb 的 RAM。所以对于 3 个 VM 的 3*4 = 12 GB。而且,除了您的机器要运行其应用程序之外,它至少需要 2 Gb。所以总的来说你需要 14+ gb 的 ram 。并且,硬盘分区也应该相应地进行。

【讨论】:

【参考方案2】:

我建议在您的情况下使用伪分布式模式。在一台机器上运行多个虚拟机绝对没问题。但是您的 RAM 应该足以处理这些虚拟机以及您的主要应用程序。在伪分布式模式下,我们将能够模拟多节点集群,但唯一的区别是所有守护进程,如 Namenode、资源管理器、数据节点、节点管理器使用单个 JVM,而不是在不同的机器上运行。

https://hadoop.apache.org/docs/r1.2.1/single_node_setup.html

【讨论】:

【参考方案3】:

来自Virtual Hadoop Wiki:

需要分别检查云和虚拟化,但在所有情况下,答案都是“是的,您可以虚拟化,是的,您可以部署到云中,但您需要了解后果并做出相应的计划”。

此 wiki 页面是您开始思考如何在 VM 上设置 Hadoop 的好地方。

【讨论】:

以上是关于在一台机器上运行 Hadoop 集群的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop学习笔记

hadoop分布式部署(转载)--贼靠谱

hadoop在Linux下的简单配置

一分钟了解Hadoop是什么

是否可以在一台机器上以不同的端口运行多个Zookeeper实例?

Hadoop完全分布式集群搭建