Hadoop入门

Posted 2022-02-16 山西没老板

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop入门相关的知识，希望对你有一定的参考价值。

1. Hahoop概述

1.1 Hodoop是什么

Hadoop是一个有Apache基金会所开发的分布式系统基础架构

主要解决海量数据的存储和海量数据的分析计算问题

广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈

1.2 Hadoop优势

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

高扩展性：在集群间分配任务数据，可方便地扩展数以千计的节点。

高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

高容错性：能够自动将失败的任务重新分配。

1.3 Hadoop组成

Hadoop1.x组成：Common（辅助工具）、HDFS（数据存储）、MapReduce（计算+资源调度）

Hadoop2.x组成：Common（辅助工具）、HDFS（数据存储）、Yarn（资源调度）、MapReduce（计算）

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。

在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。

Hadoop3.x时代在组成上没有变化。

1.3.1 HDFS 架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。

DataNode（dn）：本地文件系统存储文件块数据，以及快数据的校验和。

3）Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份。

1.3.2 YARN 架构概述

一种资源协调者，是Hadoop的资源管理器。

ResourceManager（RM）：整个集群资源（内存、CPU等）的老大

NodeManage（NM）：单个节点服务器的老大

ApplicationMaster（AM）：单个任务运行的老大

Container ：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。

1.3.3 MapReduce架构概述

MapReduce将计算过程分为俩个阶段：Map和Reduce

Map阶段并行处理输入数据

Reduce阶段对Map结果进行汇总

2. Hadoop运行环境搭建

2.1 虚拟机环境准备

2.1.1 安装 Cent OS 7

现在呢，只是相当于把 “硬件（类型与组装了一台电脑，只不过这台电脑是虚拟的）” 安装完成。接下来，安装 "软件"

进去之后直接敲回车，然后等待安装

2.1.2 配置IP

点击左上角的编辑 ——> 虚拟网络编辑器

然后在 Windows 系统上找到 VMware Network Adapter VMnet8 编辑 IPv4 修改如下：（我的是win11系统，win7，win10的右击右下方的网络图标就可以）

2.1.3 配置主机名称映射

2.2 Xshell 远程访问

Xshell的安装教程我就不写了。

Xshell 远程连接服务器

修改主机映射进入 C:\\Windows\\System32\\drivers\\etc 路径

这么做的目的是为了方面我们后面在Xshell 中的远程连接，以后再创建远程连接时，就不需要输出ip了，直接输入主机名就好，效果如下：

2.3 Xftp 远程传输工具

Xftp 的安装过程我也就不写，无脑下一步就好，记着更改安装目录就好。

2.4 安装 epel-release

注：Extra Package for Enterprise Linux 是为"红帽系"的操作系统提供额外的软件包，适用于 RHEL、CentOS和Scientific Linux。相当于一个软件仓库，大多数 rpm 包再官方 repository 中是找不到的（说白了就是一个类似于补丁的一个东西）

输入命令：yum install -y epel-release

出现以下操作，则成功。若出现错误：某某PID被锁定，则通过命令 kill -9 进程号杀死进程，然后再从新执行以上命令。

2.5 关闭防火强，关闭防火墙开机自启

输入命令：

systemctl stop firewalld

systemctl disable firewalld.service

2.6 配置tom用户具有root权限，方便后期加sudo执行root权限的命令

vim /etc/sudoers

修改/etc/sudoers文件，在%wheel这行下面添加一行，如下所示：

2.7 卸载自带的 JDK

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

参数解读：
rpm -qa：查询所安装的所以rpm软件包
grep -i：忽略大小写
xargs -n1：表示每次只传递一个参数
rpm -e --nodeps：强制卸载软件

2.8 克隆虚拟机

克隆虚拟器前，一定要关闭！！右击虚拟机 ——>电源——>关闭客户机

右击虚拟机 ——>管理——>克隆

重复以上操作，在克隆一个 Hadoop03和Hadoop04

打开Hadoop02按以下操作修改

然后执行 reboot 重启虚拟机

按照以上操作将Hadoop03和Hadoop04 的ip和主机名修改为对应 03和04

注意：以上所有虚拟机 reboot后建议查询IP和主机名是否修改成功，并且要保证每一台都能ping通 www.baidu.com

确保无误后，将每一台虚拟机通过Xshell进行连接

确保每一个都能连接成功

2.9 安装JDK

在Hadoop01中安装JDK，剩下的02、03、04 我们会通过拷贝的方式进行安装JDK

拖拽完成后，关掉就可以了

2.10 安装Hadoop

依然是在Hadoop01中进行安装

以上是关于Hadoop入门的主要内容，如果未能解决你的问题，请参考以下文章