docker搭建hadoop分布式系统

Posted lwb444

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了docker搭建hadoop分布式系统相关的知识,希望对你有一定的参考价值。

本来我一直想搭建一个hadoop分布式平台,没有高性能机器,也没有那么多机器,搞很很久,都没有能搞定。但基于docker,5-10min轻易搞定。

感谢大神KiwenLau的分享,网址是https://kiwenlau.com/2016/06/12/160612-hadoop-cluster-docker-update/

一. 项目介绍

Hadoop打包到Docker镜像中,就可以快速地在单个机器上搭建Hadoop集群,这样可以方便新手测试和学习。

如下图所示,Hadoop的master和slave分别运行在不同的Docker容器中,其中hadoop-master容器中运行NameNode和ResourceManager,hadoop-slave容器中运行DataNode和NodeManager。NameNode和DataNode是Hadoop分布式文件系统HDFS的组件,负责储存输入以及输出数据,而ResourceManager和NodeManager是Hadoop集群资源管理系统YARN的组件,负责CPU和内存资源的调度。

技术图片

之前的版本使用serf/dnsmasq为Hadoop集群提供DNS服务,由于Docker网络功能更新,现在并不需要了。更新的版本中,使用以下命令为Hadoop集群创建单独的网络:

sudo docker network create --driver=bridge hadoop

然后在运行Hadoop容器时,使用”–net=hadoop”选项,这时所有容器将运行在hadoop网络中,它们可以通过容器名称进行通信。

项目更新要点:

  • 去除serf/dnsmasq
  • 合并Master和Slave镜像
  • 使用kiwenlau/compile-hadoop项目编译的Hadoo进行安装
  • 优化Hadoop配置

二. 3节点Hadoop集群搭建步骤

1. 下载Docker镜像

sudo docker pull kiwenlau/hadoop:1.0

2. 下载GitHub仓库

git clone https://github.com/kiwenlau/hadoop-cluster-docker

3. 创建Hadoop网络

sudo docker network create --driver=bridge hadoop

4. 运行Docker容器

cd hadoop-cluster-docker
./start-container.sh

运行结果

start hadoop-master container...
start hadoop-slave1 container...
start hadoop-slave2 container...
root@hadoop-master:~#
  • 启动了3个容器,1个master, 2个slave
  • 运行后就进入了hadoop-master容器的/root目录

5. 启动hadoop

./start-hadoop.sh

6. 运行wordcount

./run-wordcount.sh

运行结果

input file1.txt:
Hello Hadoop
input file2.txt:
Hello Docker
wordcount output:
Docker 1
Hadoop 1
Hello 2

Hadoop网页管理地址:

192.168.59.1为运行容器的主机的IP。

三. N节点Hadoop集群搭建步骤

1. 准备

  • 参考第二部分1~3:下载Docker镜像,下载GitHub仓库,以及创建Hadoop网络

2. 重新构建Docker镜像

./resize-cluster.sh 5
  • 可以指定任意N(N>1)

3. 启动Docker容器

./start-container.sh 5
  • 与第2步中的N保持一致。

4. 运行Hadoop

  • 参考第二部分5~6:启动Hadoop,并运行wordcount。

参考

  1. 基于Docker搭建多节点Hadoop集群
  2. How to Install Hadoop on Ubuntu 13.10

以上是关于docker搭建hadoop分布式系统的主要内容,如果未能解决你的问题,请参考以下文章

docker搭建Hadoop集群

用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(下)-搭建Hadoop集群

VMware下CentOS7虚拟机中基于Docker的Hadoop的完全分布式环境搭建

Docker搭建Hadoop环境

docker中搭建分布式hadoop集群

基于docker搭建hadoop跨主机集群