使用 Docker 搭建 Hadoop 集群 和 Spark On Yarn

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用 Docker 搭建 Hadoop 集群 和 Spark On Yarn相关的知识,希望对你有一定的参考价值。

参考技术A

选择 uhopper 定制的一系列hadoop生态镜像来搭建docker集群,这些镜像具体包括:

上述关于端口映射部分,对每个容器端口的说明可 参考

docker-compose up -d

在 /etc/hosts 下配置上述 docker 容器中出现的 hostname,将这些域名都指向本机(宿主机) IP,192.168.1.100 为本机 ip,仅供参考。

core-site.xml 增加指向 namenode 的配置,其中 hdfs://namenode:8020 指向 docker 容器中的 namenode host,因此这里我们需要在 /etc/hosts 中加入此域名,并配置为宿主机 ip

yarn-site.xml

入门、快速搭建Docker分布式项目环境

参考技术A

1.什么是Docker

借用下网上传统虚拟机与Docker的对比图片。

传统虚拟化应用程序中,不仅包含应用程序和必要的二进制文件库,还包含一个完整的操作系统。

而Docker容器仅包含应用程序和相关依赖项,在主机的操作系统用户空间中作为一个独立进程运行,与其他容器共享内核,从而实现了虚拟机的资源隔离和分配,具有更高的可移植性和效率提高。

2.为什么使用Docker

1.更快速的交付和部署

开发者可以使用一个标准的镜像来构建一套开发容器,开发完成之后,运维人员可以直接 使用这个容器来部署代码。

2.高效部署和扩容

Docker 容器几乎可以在任意的平台上运行,包括物理机、虚拟机、公有云、私有云、个人电脑、服务器等。

3.更高的资源利用率

Docker 对系统资源的利用率很高,一台主机上可以同时运行数千个 Docker 容器。容器除了运行其中应用外,基本不消耗额外的系统资源,使得应用的性能很高,同时系统的开销尽量小。传统虚拟机方式运行 10 个不同的应用就要起 10 个虚拟机,而Docker 只需要启动 10 个隔离的应用即可。

4.更简单的管理

使用 Docker,只需要小小的修改,就可以替代以往大量的更新工作。所有的修改都以增量的方式被分发和更新,从而实现自动化并且高效的管理。

3.Docker的工作原理和概念

自己制作镜像然后上传仓库或使用仓库已有的镜像文件拉取到容器中部署。

为了方便Docker的说明,本次例子使用虚拟机安装CentOS 7来演示。CentOS 7的安装请等查看下篇文章或自行百度。

1.安装之前的准备工作

按照顺序,执行如下操作

1、安装必要的一些系统工具

2、添加软件源信息

3、更新并安装Docker-CE

安装准备工作

2.开启Docker服务

运行docker version 如果出现以下情况,说明当前用户没有 root相关操作权限

无root权限

解决思路

先查看有多少镜像

运行docker run hello-world 测试命令,如果出现下方红框内消息,证明安装成功

3.查看docker基本信息和版本

1.构建Nginx基础镜像

查询nginx镜像

镜像拉取

查看对外的访问路径

怎么才能访问刚才启用的nginx

nginx页面内容

我们可以进入容器,看下这个容器是什么样子

查看nginx在哪个位置

我们发现尽管启动了nginx,但是在外部还是不能访问,这是因为docker具有隔离机制,要不然怎么叫做容器化部署呢

Docker内nginx端口

对Nginx进行外网端口映射;

2.构建Tomcat基础镜像

打开容器后,默认安装目录在 /usr/local/

3.创建自己的专属镜像

用Dockerfile来制作镜像

创建一个新的镜像,并起名字为nywlw

查看新的镜像

运行自己创建的容器

4.删除容器实例

5.删除镜像

每天发布更多新鲜有含量的技术文章、总有一款适合你。

以上是关于使用 Docker 搭建 Hadoop 集群 和 Spark On Yarn的主要内容,如果未能解决你的问题,请参考以下文章

基于docker搭建hadoop跨主机集群

Docker x Hadoop使用 Docker 搭建 Hadoop 集群(从零开始保姆级)

使用rancher 搭建docker集群

基于Docker快速搭建Hadoop集群和Flink运行环境

基于Docker快速搭建Hadoop集群和Flink运行环境

使用 Docker 搭建本地 Hadoop 集群