【大数据】使用Docker搭建Hadoop集群
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【大数据】使用Docker搭建Hadoop集群相关的知识,希望对你有一定的参考价值。
参考技术A 启动后发现还是无法使用hadoop、hdfs、hive等命令,我们需要安装hadoop和hive这个时候我们进入bin路径下,即可执行./hadoop或者./hdfs等命令,我们接下来将其加入环境遍历以便全局使用这些命令,在~/.bashrc文件后面追加下面的内容。
之后使用 source ~/.bashrc 命令即可刷新环境变量
追加了上述环境变量后即可全局执行hadoop和hdfs命令。
hdfs执行后有可能访问的还是本地的文件系统,这是因为配置错了。
配置/usr/local/hadoop/etc/hadoop/core-site.xml下的环境变量,使得hdfs可以链接到Docker集群的HDFS系统。
设置环境变量
基于Docker搭建大数据集群Spark部署
主要内容
- spark部署
前提
- zookeeper正常使用
- JAVA_HOME环境变量
- HADOOP_HOME环境变量
安装包
- Spark2.4.4
一、环境准备
上传到docker镜像
docker cp spark-2.4.4-bin-hadoop2.7.tar.gz cluster-master:/root/tar
解压
tar xivf spark-2.4.4-bin-hadoop2.7.tar.gz -C /opt/hadoop
二、配置文件
spark-env.sh
SPARK_LOCAL_DIRS=/opt/spark/spark-2.4.4-bin-hadoop2.7
HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.7/etc/hadoop
YARN_CONF_DIR=/opt/hadoop/hadoop-2.7.7/etc/hadoop
JAVA_HOME=/opt/jdk/jdk1.8.0_221
export SPARK_MASTER_IP=cluster-master
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=172.15.0.2:2181
-Dspark.deploy.zookeeper.dir=/sparkmaster"
slaves
cluster-slave1
cluster-slave2
cluster-slave3
spark-default.conf
spark.eventLog.enabled true
spark.eventLog.dir hdfs://jinbill/spark/eventLog
spark.history.fs.logDirectory hdfs://jinbill/spark/eventLog
spark.eventLog.compress true
三、启动
start-all.sh
四、UI界面
因为网段不同,所以得加路由才能访问
- 打开cmd,需要管理员权限
- route add 172.15.0.0 mask 255.255.0.0 192.168.11.38 -p
Spark Master 访问地址
Spark Slave1 访问地址
Spark Slave2 访问地址
Spark Slave3 访问地址
Spark 历史任务 访问地址
以上是关于【大数据】使用Docker搭建Hadoop集群的主要内容,如果未能解决你的问题,请参考以下文章
基于Docker的Zookeeper+Hadoop(HA)+hbase(HA)搭建
2021年大数据Hadoop:全网最详细的Hadoop集群搭建