初识Hadoop，轻松应对海量数据存储与分析所带来的挑战

Posted 2022-12-30 毛奇志

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了初识Hadoop，轻松应对海量数据存储与分析所带来的挑战相关的知识，希望对你有一定的参考价值。

六、手把手搭建Hadoop环境（Linux上）

6.1 安装jdk

6.2 安装hadoop

6.3 成功运行

附：hadoop2.X与hadoop3.X的区别

七、尾声

一、前言：什么是Hadoop?

官方解释：The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.

(Hadoop是一个由Apache基金会发行的开源的、可靠的、可扩展的分布式计算基础架构。)

Hadoop是apache下的一个顶级项目，域名为hadoop.apache.org，首页如图：

Hadoop中文直译为“分布式计算”，

那么Hadoop和大象有什么关系？大象是Hadoop的图标icon，没有任何实际意义，就像Java语言的图标是一倍咖啡一样，大数据领域的工具名和工具图标都习惯于用动物的名称，仅此而已。如：Hive蜜蜂、Pig猪、Shark鲨鱼、zookeeper动物园管理者等。

hadoop最核心的概念就是HDFS和MapReduce，其中，HDFS是分布式文件系统，用于数据存储，MapReduce是分布式计算框架，用于数据处理，如下图：

解释上图：

Hadoop:Open Source data management with scale-out storage & distributed processing.（Hadoop: 实现了可扩展存储和分布式处理的开源数据管理）

Hadoop四个关键特性Key Characteristics：可扩展性Scalable、可靠性Reliable、弹性Flexible/高效性Efficient（ps:这个有争议，有的地方是Flexible，有的地方是Efficient，这里标明）、经济性Economical

数据存储Storage：HDFS，包括Distributed access "nodes"(分布式访问节点)、Natively redundant（本地备份）、Name node tracks locations(namenode结点跟踪位置)

数据处理Processing：Map Reduce，包括Splits a task accross processors "near" the data & assemblers results(在靠近数据和程序结果的处理器之间拆分任务)、Self-Healing,High Bandwidth Clustered Storage（自身处理高带宽分布式存储）

二、Hadoop生态圈

截止2019年12月30日，Hadoop目前最新版本是Hadoop 2.10.0和Hadoop 3.2.1/3.1.3，分别对应的现有的Hadoop2和Hadoop3中的最高的版本，从版本号上来看，Hadoop2已经非常成熟，Hadoop3则刚刚开始，所有本文使用Hadoop2讲解（包括第六部分在Linux上搭建Hadoop环境）。

2.1 Hadoop2.x的生态系统

如图，展示Hadoop2.X整个生态环境：

注意：上图是正确，有的结构图中将YARN也标注为分布式计算框架，是错误的，YARN是一个资源管理系统，集群资源管理系统，本文第五部分有讲解。

2.2 Hadoop2.x各个组件

对照“2.1 Hadoop2.x的生态系统”，讲解其中的各个组件。

1、HDFS(HadoopDistributedFileSystem，即Hadoop分布式文件系统)

HDFS将大量数据分布到计算机集群上，数据一次写入，但可以多次读取用于分析，hdfs是整个Hadoop的基础，是Hadoop的一个组件。

2、Map Reduce(分布式计算框架)

Map Reduce=mapping+reduce，是一个用于分布式并行数据处理的编程模型，数据处理时将作业分为mapping阶段（即映射阶段）和reduce阶段（归约阶段），MapReduce是hadoop的一个组件。

3、YARN(Yet Another Resource Negotiator，即集群资源管理系统)

YARN是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处，它是hadoop的一个组件。

4、Tez(DAG计算框架)

Tez是一个DAG计算框架，如图：

附：现在Tez用的比较少，反而是另外一个计算框架Spark用得很多，上面的生态图上没有（图上没有不是说不重要，spark是个很重要的工具，因为很常用），Spark是一个计算框架，所以应该是放在MapReduce、Tez、Storm这一层的。

Spark是在Scala语言中实现的，是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等（因为是通用引擎，所以我们一般不需要安装其他引擎了）

Spark属于内存计算，是小数据集上处理复杂迭代的交互系统，内存计算下，号称Spark 比 Hadoop 快100倍（通常这个号称的都有点吹牛逼，但spark确实在速度上突出，Spark the fastest open source engine for sorting a petabyte）。

在实际生产中，如果数据需要快速处理而且资源充足，则可以选择spark；如果资源是瓶颈，则可以使用tez；可以根据不同场景不同数据层次做出选择。和其他计算框架一样，Spark也是一个apache顶级项目。

5、Storm(流式计算框架)

6、Hive(数据仓库)

英文直译为蜂巢，在Hadoop是数据仓库，是一个apache顶级项目。

问题：Hive和下面的Hbase都是用于数据存储，两者有什么区别？

回答：如下表：

	Hive	Hbase
类型	数据仓库	NoSql数据库/列式数据库
内部机制	MR	数据库引擎
增删查改	只支持导入和查询	都支持

7、Pig(数据流处理)

8、Mahout(数据挖掘库)

9、Zookeeper(分布式协作服务)

Zookeeper是Hadoop的分布式协调服务。Zookeeper被设计成可以在机器集群上运行，用于Hadoop操作的管理，而且很多Hadoop组件都依赖它。是一个具有高度可用性的服务，其实即使不是Hadoop，很多组件要搭建集群基本上都需要用到Zookeeper来管理，如Solr集群、

注意：

10、Hbase(实时分布式数据库)

Hbase一个的面向列的NoSQL数据库，用在分布式架构中，HBase用于对海量数据进行快速读取/写入。hbase不是hadoop的子集，它和hadoop一样，是一个apache顶级项目。

Hive、Hbase都用户数据存储，那么它们与我们传统的关系型数据库有什么区别呢？如下表：

	Hbase	mysql
类型	NoSQL数据库、列式数据库	关系型数据库
存储数据量大小	PB	GB、TB
数据处理速度	数百万条查询/秒	数千条查询/秒
存储方式	按列存储	按行存储
数据类型	Bytes	各个数据类型，如varchar、int、datetime等

上表中，Hbase与传统数据库最大的区别不是存储的数据量的大小，而是数据处理速度，Hbase可以轻松应对PB级别的数据，传统数据库只能处理GB或TB级别数据，太大的数据量会采用水平分表，字段太多采用垂直分表（注意：两种最大区别是处理速度，如果是存储数据量的话，Mysql的也已达到PB级别，但是如果处理这么大的数据量，CRUD会非常慢，所以这里指的是处理速度）

附：计算机中的存储单位

计算机存储单位一般用bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB……来表示，它们之间的关系是：

1DB=1024NB、1NB=1024BB、1BB=1024YB、1YB=1024ZB、1ZB=1024EB 、1EB=1024PB 、1PB=1024TB、1TB=1024GB、1GB=1024MB、1MB=1024KB、1KB=1024B 、1B=8bit

11、Sqoop(数据库ETL工具)

ETL是Extract-Transform-Load，指抽取（extract）、转换（transform）、加载（load）三个操作，没错，Sqoop就是完成这三个操作的工具

12、Flume(日志收集工具)

很清楚，就是对日志操作的工具，因为Hadoop要存储和处理海量数据，不可避免的有大量的日志，所有专门使用一个工具来收集日志，就是Flume.

13、Ambari(安装、部署、配置和管理工具)

Ambari位于整个生态图的最上面，Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。

2.3 Apache大数据生态圈目录层次

最后一点，对于整个hadoop2.X的生态系统，我要搞懂它们在apache下的层次关系，像上面所指出的，有的是顶级项目，有的是次级项目，笔者将层次关系整理出图为：

该图为我们纠正两个易错点：

1、整个Apache大数据生态圈，Hadoop只是其中的一个顶级项目，初学者以为“大数据=Hadoop”，应该是“大数据>Hadoop”，对于整个Apache大数据生态圈来说，除了Hadoop，还有很多和Hadoop同级的项目，只是因为Hadoop是整个生态圈中的核心组件，知名度最高，所有才会给人“Hadoop=大数据”的错觉。

2、这个生态圈应该叫“Apache大数据生态圈/生态系统”才准确，“Hadoop2.X生态圈/生态系统”这个称呼不是很准确，因为Hadoop只是Apache里面的一个项目，并不能代表大数据整体，至于为什么叫“Hadoop2.X生态圈/生态系统”，因为这样叫的人多了，所以这样也就是正确的了......

2.3 大数据与云计算

大数据Big Data：数据量大Volume、数据多样Variety、数据处理高速Velocity、数据有价值Value；

云计算cloud computing：

附：Hadoop与云计算的关系

一般认为，云计算由三层构成：IAAS、PAAS、SAAS

IAAS：Infrastructure-as-a-service基础设施即服务，该层为云计算下层，将互联网基础设施(如网络、存储、服务器)作为一种服务,典型的实现有：OpenStack、CloudStack、RackSpace.

PAAS：Platform-as-a-service平台即服务，该层为云计算中间层，将软件开发平台和软件运营的云端环境作为一种服务，典型的实现有：Google AppEngine、Apache Hadoop

SAAS：Software-as-a-service软件即服务，该层为云计算上层，将开发完成的功能软件作为一种服务，典型的实现有：Google Apps

则Hadoop与云计算的关系是：Apache Hadoop是云计算中的第二层（PAAS平台即服务）。

三、HDFS（分布式文件系统）

HDFS，全称为HadoopDistributedFileSystem，直译Hadoop分布式文件系统，是Hadoop中最重要的一个组成之一，用于海量数据存储。

3.1 hdfs架构

HDFS架构如下：包括NameNode DataNode SecondaryNameNode，如图：

注意：这个图是hdfs架构图，其实这个图百度就都可以搜索到，这里主要讲解这个的含义：

dfsClient,英文全称DistributedFileSystem Client,分布式文件系统客户端，就是访问hdfs的客户端，理解为一般的客户端即可，可以对存储的文件块datanode（里面的数据及数据校验和）做读写操作。

rack表示机架，rack1和rack2分别表示机架1和机架2，这里作为示例之用，实际上可以有n个机架，每个物理机架可以认为是一个文件块集合，即datanode集合，这里将这种集合用datanodes表示。

datanode表示一个文件块，里面存放文件块数据及块数据的校验和，一个机架可以有n个这样的文件块，上图表示用datanode1-datanodeN表示出来。

metadata表示元数据，包括filename文件名，文件属性，文件目录结构，每个文件的块列表和块所在的datanode,上图用metadata方框表示的很清楚。

namenode是主节点，里面存放metadata元数据，上图用箭头表示了，其他的如dfsclient、secondarynamenode可以对namenode做元数据操作、同步元数据与日志等，上图也表示出来了，而namenode可以对文件块集合datanodes做blocks operation块操作，上图也表示出来了。

secondarynamenode也是管理层，是监控整个hdfs状态的辅助后台程序，所以上图中表示其对namenode同步元数据与日志。

整个hdfs中，分为namenode、Secondary namenode、Datanode：

namenode是主节点，属于管理层，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的datanode等。namenode是放在内存中的。

Secondary namenode 管理层，用来监控HDFS状态的辅助后台程序，每隔一段时间获取hdfs元数据快照。

Datanode 应用层用于进行数据的存储，被namenode进行管理，要定时的想namenode工作汇报，执行namenode分配分发的任务，在本地文件系统存储文件块数据，以及块数据的检验和。

3.2 hdfs存储

hdfs上存储文件的特点是文件以块的形式存储，记住两句：

第一，一个文件多个块：表示存放在hdfs上的文件是以块的形式存储的，即hdfs的文件的存储方式以块来存储的，每个文件被分成多个块（这个文件具体被分为多成多少个块是可以设置，图中为r指示）；

第二：一个块多个副本：每个块有多个副本存储在不同机器上，副本数在文件生成时指定（默认为3），每一个块的不同副本一定不会存放在同一个节点上。

如图：

让我们来解释一下上图，该图有两个文件：

第一个文件：/users/sameerp/data/part-0，r:2表示这个文件有两个块，分别是1和3，其副本数均为2，且每个块的副本都存在在不同的datanode结点上，嗯嗯，这是正确的。

第二个文件：/users/sameerp/data/part-1，r:3表示这个文件有三个块，分别是2、4和5，其副本数均为3，且每个块的副本都存在在不同的datanode结点上，嗯嗯，这是正确的。

四、MapReduce（分布式计算框架）

MapReduce（本来就是全称写法），是Hadoop另一个重要组成部分，包括map映射+reduce归约，简称为MR,是一个分布式计算模型框架，用于海量数据处理，其核心是对数据的排序优化。

4.1 Map+Reduce

MapReduce将整个并行计算过程抽象到两个函数，分别是

map()函数：对一些独立元素组成的列表每一个元素进行指定操作，可以高度并行

reduce()函数：对一个列表的元素进行合并。

对于程序员来说，一个简单的mapreduce程序只需要四个部分，即程序员只需做四件事，map()函数 reduce()函数 input输入 output 输出，其他的事情交给框架来完成。

4.2 MapReduce架构

MapReduce架构如下：包括Jobtracker tasktracker

Jobtracker 管理层，管理集群资源和对任务进行资源调度，监护人去执行，接收用户提交的作业，负责启动、跟踪任务执行。

tasktracker应用层，执行jobtracker分发的任务，并想jobtracker汇报工作，管理各个任务在每一个节点上的执行情况。

具体对比：

Jobtracker

tasktrackers(tasktracker集合)

Master主节点

Slave从节点

功能与用途：

1、作为管理层，管理所有作业；

2、将作业分解成一个锡类任务；

3、将任务指派给每个tasktracker

4、作业/任务监控、错误处理

功能与用途：

1、运行Map Task和Reduce Task

2、与Jobtracker交互，执行命令并汇报任务状态

mapreduce架构图如下：

解释一下MapReduce架构图，图中有client、heartbeat、Jobtracker、tasktrackers、tasktracker、maptask、reducetask:

client表示客户端，直接于主节点Jobtracker通信；

heartheat表示心跳，用于Jobtracker和每个tasktracker通信，确认对方是否存活；

mapreduce架构分为Jobtracker和tasktrackers，Jobtracker作为主节点Master，充当管理层，管理所有作业；

tasktrackers是tasktracker集合，包含n个tasktracker，每一个tasktracker两种任务，Map任务和Reduce任务，即maptask和

reducetask。

4.3 MapReduce数据处理

4.3.1 job与task

MapReduce数据处理，首先要区分好job和task两个概念：

job：表示客户端的每一个计算请求，称为一个作业

task：每一个作业，都需要拆分开来，交由多个服务器来完成，拆分出来的执行单位，就称为任务。

task分为maptask和reducetask两种，分别进行map操作和reduce操作，根据job设置map类和reduce类。

关于maptask和reducetask区别：

Map task	Reduce task
Map引擎	Reduce引擎
解析每一条数据，传递给用户编写的map()	从Map task上远程读取输入数据，并对数据排序
将map()输出数据写入本地磁盘（如果是map-only作业，则直接写入HDFS）	将数据按照分组传递给用户编写的reduce()

4.3.2 MapReduce数据处理

对于上图的理解是：client提交job请求给Jobtracker，所以图上是单向箭头，Jobtracker将job切分成多个task，分配到不同的map和reduce任务到集群的每一个tasktracker上。这就是MapReduce整个数据处理过程的简单描述。

五、YARN（资源管理系统）

YRAN，全称为Yet Another Resource Negotiator，直译为另一种资源协调者，是一个资源管理系统，负责集群资源管理的统一和调度，是自Hadoop2开始的一个重要内容，Hadoop2.x和Hadoop3.x均有这个组件。

5.1 YARN架构

YARN架构图如下：

对于上图的理解：

1、 ResourceManager（RM）

YARN分层结构的本质是ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分（计算、内存、带宽等）精心安排给基础NodeManager（YARN 的每节点代理）。ResourceManager还与 ApplicationMaster 一起分配资源，与NodeManager 一起启动和监视它们的基础应用程序。在此上下文中，ApplicationMaster 承担了以前的 TaskTracker 的一些角色，ResourceManager 承担了 JobTracker 的角色。

1）处理客户端请求；

2）启动或监控ApplicationMaster；

3）监控NodeManager；

4）资源的分配与调度。

2、 ApplicationMaster（AM）

ApplicationMaster 管理在YARN内运行的每个应用程序实例。ApplicationMaster 负责协调来自 ResourceManager 的资源，并通过 NodeManager 监视容器的执行和资源使用（CPU、内存等的资源分配）。请注意，尽管目前的资源更加传统（CPU 核心、内存），但未来会带来基于手头任务的新资源类型（比如图形处理单元或专用处理设备）。从 YARN 角度讲，ApplicationMaster 是用户代码，因此存在潜在的安全问题。YARN 假设 ApplicationMaster 存在错误或者甚至是恶意的，因此将它们当作无特权的代码对待。

总的来说,AM有以下作用

1）负责数据的切分

2）为应用程序申请资源并分配给内部的任务

3）任务的监控与容错

3、NodeManager（NM）

NodeManager管理一个YARN集群中的每个节点。NodeManager提供针对集群中每个节点的服务，从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1通过插槽管理Map和Reduce任务的执行，而NodeManager 管理抽象容器，这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。YARN继续使用HDFS层。它的主要 NameNode用于元数据服务，而DataNode用于分散在一个集群中的复制存储服务。

1）单个节点上的资源管理；

2）处理来自ResourceManager上的命令；

3）处理来自ApplicationMaster上的命令。

4、Container

对任务运行环境进行抽象，封装CPU、内存等多维度的资源以及环境变量、启动命令等任务运行相关的信息。比如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源。

小结：要使用一个YARN集群，首先需要来自包含一个应用程序的客户的请求。ResourceManager 协商一个容器的必要资源，启动一个ApplicationMaster 来表示已提交的应用程序。通过使用一个资源请求协议，ApplicationMaster协商每个节点上供应用程序使用的资源容器。执行应用程序时，ApplicationMaster 监视容器直到完成。当应用程序完成时，ApplicationMaster 从 ResourceManager 注销其容器，执行周期就完成了。

六、手把手搭建Hadoop环境（Linux上）

Hadoop自诞生出就青睐于Linux环境，虽然从Hadoop2开始有了windows环境的版本，但是实际使用中我们还是在Linux上搭建，

附：Linux两种系列，基本区别如下：

	包名	管理工具	管理单个软件包	装包例子	实例
Debian系列	.deb	apt-get	dpkg	apt-get install xxx	Debian、Ubuntu
Redhat系列	.rpm	yum	rpm	yum -y	Redhat Enterprise Linux、FedoraCore、CentOS

windows exe 和 zip

Debian apt-get install xxx.deb 和 tar -zxvf xxx.tar.gz

redhat yum -y xxx.rpm 和 tar -zxvf xxx.tar.gz

常用的，centos是redhat，ubuntu是debian

这里笔者将在CentOS上搭建。Hadoop拥有三种搭建方式：单机模式Local Mode/本地模式Standalone Mode，伪分布式模式Pseudo-Distributed Mode，完全分布式模式Fully Distributed Mode.三者区别：

	定义
单机模式Local Mode/本地模式Standalone Mode	需要0个守护进程，部署到一个机器上
伪分布式模式Pseudo-Distributed Mode	需要5个守护进程（HDFS 3个+MapReduce 2个），所有的守护进程部署到一个机器上
完全分布式模式Fully Distributed Mode	需要5个守护进程（HDFS 3个+MapReduce 2个），每一个守护进程部署到一个机器上

这里仅介绍单机模式安装，部署环境：vm15+Centos7.0+jdk7.0+hadoop2.10

这里因为csdn资源上传只能小于240MB，所有hadoop2.10的压缩包提交不出来，这个包373MB,所有上传不了，

读者可以到hadoop官网下载

6.1 安装jdk

将jdk解压到要任意位置，一般是/usr/local目录，笔者这里选择/opt/modules目录，如图：

然后vi /etc/profile 配置环境变量，如图：

然后 source /etc/profile使配置生效，输入java -version看到类似下图即安装成功。

6.2 安装hadoop

和jdk一样，也是压缩包安装，先hadoop解压到任意位置，笔者这里为/opt/modules目录，并使用vi /etc/profile配置环境变量，

然后 source /etc/profile 是配置生效，输入hadoop version看到类似内容说明安装成功。

但是现在还不能马上启动，还要完成几个相关的配置。

vi core-site.xml ，配置如下：ip为自己的ip,port默认

vi hadoop-env.sh 配置成你自己的jdk安装路径

vi hdfs-site.xml

复制默认的cp mapred-site.xml.template ./mapred-site.xml 配置命名为mapred-site.xml

vi mapred-site.xml 添加如下配置

vi yarn-site.xml 添加如下配置

格式化，执行命令 hadoop namenode -format，成功之后启动

6.3 成功运行

hadoop安装目录下的sbin目录下，运行./start-all.sh

附：hadoop2.X与hadoop3.X的区别

1.License

adoop 2.x - Apache 2.0，开源

Hadoop 3.x - Apache 2.0，开源

2.支持的最低Java版本

Hadoop 2.x - java的最低支持版本是java 7

Hadoop 3.x - java的最低支持版本是java 8

3.容错

Hadoop 2.x - 可以通过复制（浪费空间）来处理容错。

Hadoop 3.x - 可以通过Erasure编码处理容错。

4.数据平衡

Hadoop 2.x - 对于数据，平衡使用HDFS平衡器。

Hadoop 3.x - 对于数据，平衡使用Intra-data节点平衡器，该平衡器通过HDFS磁盘平衡器CLI调用。

5.存储Scheme

Hadoop 2.x - 使用3X副本Scheme

Hadoop 3.x - 支持HDFS中的擦除编码。

6.存储开销

Hadoop 2.x - HDFS在存储空间中有200％的开销。

Hadoop 3.x - 存储开销仅为50％。

7.存储开销示例

Hadoop 2.x - 如果有6个块，那么由于副本方案（Scheme），将有18个块占用空间。

Hadoop 3.x - 如果有6个块，那么将有9个块空间，6块block，3块用于奇偶校验。

8.YARN时间线服务

Hadoop 2.x - 使用具有可伸缩性问题的旧时间轴服务。

Hadoop 3.x - 改进时间线服务v2并提高时间线服务的可扩展性和可靠性。

9.默认端口范围

Hadoop 2.x - 在Hadoop 2.0中，一些默认端口是Linux临时端口范围。所以在启动时，他们将无法绑定。

Hadoop 3.x - 但是在Hadoop 3.0中，这些端口已经移出了短暂的范围。

10.工具

Hadoop 2.x - 使用Hive，pig，Tez，Hama，Giraph和其他Hadoop工具。

Hadoop 3.x - 可以使用Hive，pig，Tez，Hama，Giraph和其他Hadoop工具。

11.兼容的文件系统

Hadoop 2.x - HDFS（默认FS），FTP文件系统：它将所有数据存储在可远程访问的FTP服务器上。 Amazon S3（简单存储服务）文件系统Windows Azure存储Blob（WASB）文件系统。

Hadoop 3.x - 它支持所有前面以及Microsoft Azure Data Lake文件系统。

12.Datanode资源

Hadoop 2.x - Datanode资源不专用于MapReduce，我们可以将它用于其他应用程序。

Hadoop 3.x - 此处数据节点资源也可用于其他应用程序。

13.MR API兼容性

Hadoop 2.x - 与Hadoop 1.x程序兼容的MR API，可在Hadoop 2.X上执行

Hadoop 3.x - 此处，MR API与运行Hadoop 1.x程序兼容，以便在Hadoop 3.X上执行

14.支持Microsoft Windows

Hadoop 2.x - 它可以部署在Windows上。

Hadoop 3.x - 它也支持Microsoft Windows。

15.插槽/容器

Hadoop 2.x - Hadoop 1适用于插槽的概念，但Hadoop 2.X适用于容器的概念。通过容器，我们可以运行通用任务。

Hadoop 3.x - 它也适用于容器的概念。

16.单点故障

Hadoop 2.x - 具有SPOF的功能，因此只要Namenode失败，它就会自动恢复。

Hadoop 3.x - 具有SPOF的功能，因此只要Namenode失败，它就会自动恢复，无需人工干预就可以克服它。

17.HDFS联盟

Hadoop 2.x - 在Hadoop 1.0中，只有一个NameNode来管理所有Namespace，但在Hadoop 2.0中，多个NameNode用于多个Namespace。

Hadoop 3.x - Hadoop 3.x还有多个名称空间用于多个名称空间。

18.可扩展性

Hadoop 2.x - 我们可以扩展到每个群集10,000个节点。

Hadoop 3.x - 更好的可扩展性。我们可以为每个群集扩展超过10,000个节点。

19.更快地访问数据

Hadoop 2.x - 由于数据节点缓存，我们可以快速访问数据。

Hadoop 3.x - 这里也通过Datanode缓存我们可以快速访问数据。

20.HDFS快照

Hadoop 2.x - Hadoop 2增加了对快照的支持。它为用户错误提供灾难恢复和保护。

Hadoop 3.x - Hadoop 2也支持快照功能。

21.平台

Hadoop 2.x - 可以作为各种数据分析的平台，可以运行事件处理，流媒体和实时操作。

Hadoop 3.x - 这里也可以在YARN的顶部运行事件处理，流媒体和实时操作。

22.群集资源管理

Hadoop 2.x - 对于群集资源管理，它使用YARN。它提高了可扩展性，高可用性，多租户。

Hadoop 3.x - 对于集群，资源管理使用具有所有功能的YARN。

七、尾声

本文第一部分引入Hadoop，然后中间分别介绍Hadoop生态、HDFS、MapReduce、YARN四个内容，最后搭建出Hadoop环境。

天天打码，天天进步！

以上是关于初识Hadoop，轻松应对海量数据存储与分析所带来的挑战的主要内容，如果未能解决你的问题，请参考以下文章