Hadoop技术之Apache Hadoop集群搭建

Posted 2022-08-09 黑马程序员官方

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop技术之Apache Hadoop集群搭建相关的知识，希望对你有一定的参考价值。

Spark是大数据体系的明星产品，是一款高性能的分布式内存迭代计算框架，可以处理海量规模的数据。下面就带大家一起来开始学Spark！

▼往期内容汇总：

一、Hadoop集群简介

Hadoop集群整体概述

Hadoop集群包括两个集群： HDFS集群、YARN集群
两个集群逻辑上分离、通常物理上在一起
两个集群都是标准的主从架构集群

Hadoop集群简介

Hadoop集群=HDFS集群+YARN集群

逻辑上分离

两个集群互相之间没有依赖、互不影响

物理上在一起

某些角色进程往往部署在同一台物理服务器上

MapReduce集群呢？

MapReduce是计算框架、代码层面的组件没有集群之说

二、Hadoop集群模式安装(Cluster mode)

Hadoop源码编译

安装包、源码包下载地址

https://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/

为什么要重新编译Hadoop源码?

匹配不同操作系统本地库环境， Hadoop某些操作比如压缩、 IO需要调用系统本地库(*.so|*.dll)
修改源码、重构源码。

如何编译Hadoop

源码包根目录下文件： BUILDING.txt 详细步骤参考附件资料

课程提供编译好的Hadoop安装包

hadoop-3.3.0-Centos7-64-with-snappy.tar.gz

Step1:集群角色规划

角色规划的准则

根据软件工作特性和服务器硬件资源情况合理分配

比如依赖内存工作的NameNode是不是部署在大内存机器上？

角色规划注意事项

资源上有抢夺冲突的，尽量不要部署在一起

工作上需要互相配合的。尽量部署在一起

Step2:服务器基础环境准备

主机名(3台机器)

vim /etc/hostname

Hosts映射(3台机器)

vim /etc/hosts

防火墙关闭(3台机器)

systemctl stop firewalld.service #关闭防火墙
systemctl disable firewalld.service #禁止防火墙开启自启

ssh免密登录(node1执行- >node1|node2|node3)

ssh-keygen #4个回车生成公钥、私钥
ssh-copy-id node1、ssh-copy-id node2、ssh-copy-id node3 #

集群时间同步(3台机器)

yum -y install ntpdate
ntpdate ntp4.aliyun.com

mkdir -p /export/server/ #软件安装路径
mkdir -p /export/data/ #数据存储路径
mkdir -p /export/software/ #安装包存放路径

Step3:上传安装包、解压安装包

JDK 1.8安装(3台机器)

上传、解压Hadoop安装包(node1)

Step4:Hadoop安装包目录结构

配置文件概述

官网文档： https://hadoop.apache.org/docs/r3.3.0/
第一类1个： hadoop-env.sh
第二类4个： xxxx-site.xml ,site表示的是用户定义的配置，会覆盖default中的默认配置。
core-site.xml 核心模块配置
hdfs-site.xml hdfs文件系统模块配置
mapred-site.xml MapReduce模块配置
yarn-site.xml yarn模块配置
第三类1个： workers
所有的配置文件目录： /export/server/hadoop-3.3.0/etc/hadoop