HDFS采用了主从结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成，其中NameNode作为主服务器管理文件系统的命名空间和客户端对文件的访问操作，而DataNode则负责管理存储的数据。HDFS底层数据被切割成了多个Block，而这些Block又被复制后存储在不同的DataNode上，以达到容错容灾的目的。

NameNode

管理文件系统命名空间的主服务器和管理客户端对文件的访问组成，如打开，关闭和重命名文件和目录。负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系，维护目录树，接管用户的请求

将文件的元数据保存在一个文件目录树中
在磁盘上保存为：fsimage 和 edits
保存datanode的数据信息的文件，在系统启动的时候读入内存。

DataNode

（数据节点）管理连接到它们运行的节点的存储，负责处理来自文件系统客户端的读写请求。DataNodes还执行块创建，删除。block副本存放策略：

第一个副本：放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
第二个副本：放置在于第一个副本不同的机架的节点上。
第三个副本：与第二个副本相同机架的其他节点。
更多副本：随机节点

Client

(客户端)代表用户通过与nameNode和datanode交互来访问整个文件系统，HDFS对外开放文件命名空间并允许用户数据以文件形式存储。用户通过客户端（Client）与HDFS进行通讯交互。

写数据流程：

YARN架构概述

Container

容器（Container）这个东西是Yarn对资源做的一层抽象。就像我们平时开发过程中，经常需要对底层一些东西进行封装，只提供给上层一个调用接口一样，Yarn对资源的管理也是用到了这种思想。

如上所示，Yarn将CPU核数，内存这些计算资源都封装成为一个个的容器（Container）。需要注意两点：

容器由NodeManager启动和管理，并被它所监控。
容器被ResourceManager进行调度。

其中NodeManager和ResourceManager这两个组件会在下面讲到。对任务运行环境进行抽象，封装CPU、内存等多维度的资源以及环境变量、启动命令等任务运行相关的信息。比如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源。

要使用一个YARN集群，首先需要来自包含一个应用程序的客户的请求。ResourceManager 协商一个容器的必要资源，启动一个ApplicationMaster 来表示已提交的应用程序。通过使用一个资源请求协议，ApplicationMaster协商每个节点上供应用程序使用的资源容器。执行应用程序时，ApplicationMaster 监视容器直到完成。当应用程序完成时，ApplicationMaster 从 ResourceManager 注销其容器，执行周期就完成了。

ResourceManager（RM）

我们先来说说上图中最中央的那个ResourceManager（RM）。从名字上我们就能知道这个组件是负责资源管理的，在运行过程中，整个系统有且只有一个RM，系统的资源正是由RM来负责调度管理的。RM包含了两个主要的组件：定时调用器(Scheduler)以及应用管理器(ApplicationManager)，我们分别来看看它们的主要工作。

定时调度器(Scheduler)：从本质上来说，定时调度器就是一种策略，或者说一种算法。当Client提交一个任务的时候，它会根据所需要的资源以及当前集群的资源状况进行分配。注意，它只负责向应用程序分配资源，并不做监控以及应用程序的状态跟踪。
应用管理器(ApplicationManager)：同样，听名字就能大概知道它是干嘛的。应用管理器就是负责管理Client用户提交的应用。上面不是说到定时调度器（Scheduler）不对用户提交的程序监控嘛，其实啊，监控应用的工作正是由应用管理器（ApplicationManager）完成的。

OK，明白了资源管理器ResourceManager，那么应用程序如何申请资源，用完如何释放？这就是ApplicationMaster的责任了。

ApplicationMaster（AM）

每当Client（用户）提交一个Application（应用程序）时候，就会新建一个ApplicationMaster。由这个ApplicationMaster去与ResourceManager申请容器资源，获得资源后会将要运行的程序发送到容器上启动，然后进行分布式计算。

这里可能有些难以理解，为什么是把运行程序发送到容器上去运行？如果以传统的思路来看，是程序运行着不动，然后数据进进出出不停流转。但当数据量大的时候就没法这么玩了，因为海量数据移动成本太大，时间太长。但是中国有一句老话山不过来，我就过去。大数据分布式计算就是这种思想，既然大数据难以移动，那我就把容易移动的应用程序发布到各个节点进行计算呗，这就是大数据分布式计算的思路。

那么最后，资源有了，应用程序也有了，那么该怎么管理应用程序在每个节点上的计算呢？别急，我们还有一个NodeManager。

NodeManager（NM）

NodeManager管理一个YARN集群中的每个节点。NodeManager提供针对集群中每个节点的服务，从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1通过插槽管理Map和Reduce任务的执行，而NodeManager 管理抽象容器，这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。YARN继续使用HDFS层。它的主要 NameNode用于元数据服务，而DataNode用于分散在一个集群中的复制存储服务。

1）单个节点上的资源管理；
2）处理来自ResourceManager上的命令；
3）处理来自ApplicationMaster上的命令。

提交一个Application到Yarn的流程

这张图简单地标明了提交一个程序所经历的流程，接下来我们来具体说说每一步的过程。

Client向Yarn提交Application，这里我们假设是一个MapReduce作业。
ResourceManager向NodeManager通信，为该Application分配第一个容器。并在这个容器中运行这个应用程序对应的ApplicationMaster。
ApplicationMaster启动以后，对作业（也就是Application）进行拆分，拆分task出来，这些task可以运行在一个或多个容器中。然后向ResourceManager申请要运行程序的容器，并定时向ResourceManager发送心跳。
申请到容器后，ApplicationMaster会去和容器对应的NodeManager通信，而后将作业分发到对应的NodeManager中的容器去运行，这里会将拆分后的MapReduce进行分发，对应容器中运行的可能是Map任务，也可能是Reduce任务。
容器中运行的任务会向ApplicationMaster发送心跳，汇报自身情况。当程序运行完成后，ApplicationMaster再向ResourceManager注销并释放容器资源。

应用示例

Hadoop三大核心组件：
1）HDFS：hadoop分布式文件系统海量数据存储（集群服务）。
2）MapReduce：分布式运算框架（编程框架），海量数据运算分析。
3）Yarn：资源调度管理集群（用MapReduce编写一个程序，到Yarn运行平台上去运行）

假设有两个block的文本数据需要进行词频统计，MapReduce计算过程如下图:

MapReduce数据合并与连接机制：在WordCount例子中，要统计相同单词在所有输入数据中出现的次数，而一个map只能处理一部分数据，一个热门单词几乎会出现在所有的map中，这些单词必须要合并到一起进行统计才能得到正确的结果。事实上，几乎所有的大数据计算场景都需要处理数据关联的问题，简单如WordCount只要对key进行合并就可以了，复杂如数据库的join操作，需要对两种类型（或者更多类型）的数据根据key进行连接。MapReduce计算框架处理数据合并与连接的操作就在map输出与reduce输入之间，这个过程有个专门的词汇来描述，叫做shuffle

每个map任务的计算结果都会写入到本地文件系统，等map任务快要计算完成的时候，MapReduce计算框架会启动shuffle过程，在map端调用一个Partitioner接口，对map产生的每个<key , value>进行reduce分区选择，然后通过http通信发送给对应的reduce进程。这样不管map位于哪个服务器节点，相同的key一定会被发送给相同的reduce进程。reduce端对收到的<key , value>进行排序和合并，相同的key放在一起，组成一个<key , value集合>传递给reduce执行。MapReduce框架缺省的Partitioner用key的哈希值对reduce任务数量取模，相同的key一定会落在相同的reduce任务id上

参考文章

Hadoop Yarn框架原理解析 - zzzzMing - 博客园

以上是关于Hadoop的主要内容，如果未能解决你的问题，请参考以下文章