技巧 | HDFS & MAPREDUCE,文末有福利

Posted 亦策大数据分析

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了技巧 | HDFS & MAPREDUCE,文末有福利相关的知识,希望对你有一定的参考价值。

今天要给大家分享的内容主要分为两大块,分别是Hadoop中较为重要的两个部分:HDFS和MAPREDUCE。我们将会进行一次较为系统的梳理,方便大家以后工作中使用到。





HDFS


一、设计理念

1.存储超大文件

这里的“超大文件”指几百MB、GB甚至TB级别的文件


2.一次写入多次读取(流式数据访问)

HDFS存储的数据集作为Hadoop的分析对象在数据集生成后长时间在此数据集上进行各种分析,每次分析都将设计该数据集的大部分数据甚至全部数据。因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。


3.可以运行

运行在普通廉价的服务器HDFS设计理念之一就是让他能运行。在普通的硬件之上,即便硬件出现故障,也可通过容错策略来保证数据的高可用。


二、元数据合并

HDFS元数据存放于NameNode节点,主要包含两块元数据,一块是文件与数据块的信息,一块是数据块与节点的信息,在这里主要说明的是文件与数据块的元数据合并原理,即fsimage和edits合并原理。


1、NameNode初始化时会产生一个edits文件和一个fsImage文件,edits文件用于记录操作日志,比如文件的删除或添加等操作信息,fsImage用于存储文件与目录对应的信息以及edits合并进来的信息,即相当于fsImage文件在这里是一个总的元数据文件,记录着所有的信息;


2、随着edits文件不断增大,当达到设定的一个阀值的时候,这时 SecondaryNameNode会将edits文件和fsImage文件通过采用http的方式进行复制到SecondaryNameNode下(在这里考虑到网络传输, 所以一般将NameNode和SecondaryNameNode放在相同的节点上,这样就无需走网络带宽了,以提高运行效率),同时NameNode会产生一个新的edits文件替换掉旧的 edits 文件,这样以保证数据不会出现冗余;


3、SecondaryNameNode拿到这两个文件后,会在内存中进行合并成一个fsImage.ckpt的文件,合并完成后,再通过http的方式将合并后的文件fsImage.ckpt复制到NameNode下,NameNode文件拿到fsImage.ckpt文件后,会将旧的fsimage文件替换掉,并且改名成fsimage文件。


通过以上几步则完成了edits和fsImage文件的合并,依此不断循环,从而到达保证元数据的正确性。


edits文件的作用

主要是为了减轻NameNode节点的压力,提高效率,采用分开管理的方式,fsImage文件在存在过程不需要一边去管理操作信息,又一边去考虑目录结构信息,fsImage只需要关注存储即可,相关操作信息写入交由edits文件去负责。


三、写操作

技巧 | HDFS & MAPREDUCE,文末有福利

1、HDFS 客户端提交写操作到NameNode上,NameNode收到客户端提交的请求后,会先判断此客户端在此目录下是否有写权限,如果有,然后进行查看,看哪几个DataNode适合存放,再给客户端返回存放数据块的节点信息,即告诉客户端可以把文件存放到相关的DataNode节点下;


2、客户端拿到数据存放节点位置信息后,会和对应的DataNode 节点进行直接交互,进行数据写入,由于数据块具有副本 replication,在数据写入时采用的方式是先写第一个副本,写完后再从第一个副本的节点将数据拷贝到其它节点,依次类推,直到所有副本都写完了,才算数据成功写入到HDFS上,副本写入采用的是串行,每个副本写的过程中都会逐级向上反馈写进度,以保证实时知道副本的写入情况;


3、随着所有副本写完后,客户端会收到数据节点反馈回来的一个成功状态,成功结束后,关闭与数据节点交互的通道,并反馈状态给NameNode, 告诉NameNode文件已成功写入到对应的 DataNode。


例:

技巧 | HDFS & MAPREDUCE,文末有福利

有一个文件FileA,100M大小。Client将FileA写入到HDFS上。

HDFS按默认配置。

HDFS分布在三个机架上Rack1,Rack2,Rack3。

a. Client将FileA按64M分块。分成两块,Block1和Block2;

b. Client向nameNode发送写数据请求,如图蓝色虚线①------>。

c. NameNode节点,记录block信息。并返回可用的DataNode,如粉色虚线②--------->。

Block1: host2,host1,host3

Block2: host7,host8,host4


原理:

NameNode具有RackAware机架感知功能,这个可以配置。


若client为DataNode节点,那存储block时,规则为:副本1,同client的节点上;副本2,不同机架节点上;副本3,同第二个副本机架的另一个节点上;其他副本随机挑选。若client不为DataNode节点,那存储block时,规则为:副本1,随机选择一个节点上;副本2,不同副本1,机架上;副本3,同副本2相同的另一个节点上;其他副本随机挑选。


d. client向DataNode发送Block1;发送过程是以流式写入。

流式写入过程,

1>将64M的Block1按64k的package划分;

2>然后将第一个package发送给host2;

3>host2接收完后,将第一个package发送给host1,同时client向host2发送第二个package;

4>host1接收完第一个package后,发送给host3,同时接收host2发来的第二个package。

5>以此类推,如图红线实线所示,直到将Block1发送完毕。

6>host2,host1,host3向NameNode,host2向Client发送通知,说“消息发送完了”。如图粉红颜色实线所示。

7>client收到host2发来的消息后,向NameNode发送消息,说我写完了。这样就真完成了。如图黄色粗实线

8>发送完block1后,再向host7,host8,host4发送Block2,如图蓝色实线所示。

9>发送完block2后,host7,host8,host4向NameNode,host7向Client发送通知,如图浅绿色实线所示。

10>client向NameNode发送消息,说我写完了,如图黄色粗实线,这样就完毕了。


通过写过程,我们可以了解到:

①写1T文件,我们需要3T的存储,3T的网络流量贷款。


②在执行读或写的过程中,NameNode和DataNode通过HeartBeat进行保存通信,确定DataNode活着。如果发现DataNode死掉了,就将死掉的DataNode上的数据,放到其他节点去。读取时,要读其他节点去。


③挂掉一个节点,没关系,还有其他节点可以备份;甚至,挂掉某一个机架,也没关系;其他机架上,也有备份。


四、读操作

技巧 | HDFS & MAPREDUCE,文末有福利


1、HDFS 客户端提交读操作到 NameNode 上,NameNode 收到客户端提交的请求后,会先判断此客户端在此目录下是否有读权限,如果有, 则给客户端返回存放数据块的节点信息,即告诉客户端可以到相关的 DataNode 节点下去读取数据块;


2、客户端拿到块位置信息后,会去和相关的 DataNode 直接构建读取通道,读取数据块,当所有数据块都读取完成后关闭通道,并给 NameNode 返回状态信息,告诉 NameNode 已经读取完毕。

例:

技巧 | HDFS & MAPREDUCE,文末有福利

a.client向namenode发送读请求。

b.namenode查看Metadata信息,返回fileA的block的位置。

 Block1:host2,host1,host3

 Block2:host7,host8,host4

c.block的位置是有先后顺序的,先读Block1,再读Block2。而且Block1去host2上读取;然后Block2,去host7上读取;

上面例子中,client位于机架外,那么如果client位于机架内某个DataNode上,例如,client是host6。那么读取的时候,遵循的规律是:

优先读取本机架上的数据。


五、运行原理

1、NameNode和DataNode节点初始化完成后,采用RPC进行信息交换,采用的机制是心跳机制,即DataNode节点定时向NameNode反馈状态信息,反馈信息如:是否正常、磁盘空间大小、资源消耗情况等信息,以确保NameNode知道DataNode的情况;


2、NameNode会将子节点的相关元数据信息缓存在内存中,对于文件与block块的信息会通过fsImage和edits文件方式持久化在磁盘上,以确保NameNode知道文件各个块的相关信息;


3、NameNode负责存储fsImage和edits元数据信息,但fsImage和edits元数据文件需要定期进行合并,这时则由SecondaryNameNode进程对fsImage和 edits 文件进行定期合并,合并好的文件再交给NameNode存储。





Mapreduce


一、YARN

1.基本架构

YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。


2.基本组成结构

YARN 总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为 Slave,ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManager申请资源,并要求NodeManger启动可以占用一 定资源的任务。由于不同的ApplicationMaster被分布到不同的节点上,因此它们之间不会相互影响。在本小节中,我们将对YARN的基本组成结构进行绍。


下图描述了YARN的基本组成结构,YARN主要由ResourceManager、NodeManager、ApplicationMaster(图中给出了MapReduce和MPI两种计算框架的ApplicationMaster,分别为MR AppMstr和MPI AppMstr)和Container等几个组件构成。

技巧 | HDFS & MAPREDUCE,文末有福利

2.1ResourceManager(RM)

RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Manager,ASM)。


(1) 调度器

调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。需要注意的是,该调度器是一个“纯调度器”,它不再从事任何与具体应用程序相关的工作,比如不负责监控或者跟踪应用的执行状态等,也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务,这些均交由应用程序相关的ApplicationMaster完成。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位用一个抽象概念“资源容器”(Resource Container,简称Container)表示,Container是一个动态资源分配单位,它将内存、 CPU、磁盘、网络等资源封装在一起,从而限定每个任务使用的资源量。此外,该调度器是一个可插拔的组件,用户可根据自己的需要设计新的调度器,YARN 提供了多种直接可用的调度器,比如Fair Scheduler和Capacity Scheduler等。


(2) 应用程序管理器

应用程序管理器负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。


2.2ApplicationMaster(AM)

用户提交的每个应用程序均包含1个AM,主要功能包括:

与RM调度器协商以获取资源(用Container表示);

将得到的任务进一步分配给内部的任务;

与NM通信以启动/停止任务;

监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务。

当前YARN 自带了两个AM实现,一个是用于演示AM编写方法的实例程序distributedshell,它可以申请一定数目的Container以并行运行一个 Shell命令或者Shell脚本;另一个是运行MapReduce应用程序的AM—MRAppMaster,我们将在第8章对其进行介绍。此外,一些其 他的计算框架对应的AM正在开发中,比如Open MPI、Spark等。


2.3NodeManager(NM)

NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它接收并处理来自AM的Container启动/停止等各种请求。


2.4Container

Container 是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用 Container表示的。YARN会为每个任务分配一个Container,且该任务只能使用该Container中描述的资源。


需要注意的是,Container不同于MRv1中的slot,它是一个动态资源划分单位,是根据应用程序的需求动态生成的。截至《Hadoop权威指南(第六版)》完成时,YARN仅支持CPU和内存两种资源,且使用了轻量级资源隔离机制Cgroups进行资源隔离。


3.工作流程

当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序:

第一个阶段是启动ApplicationMaster;

第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。

如图所示,YARN的工作流程分为以下几个步骤:

技巧 | HDFS & MAPREDUCE,文末有福利

步骤1:用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。


步骤2:ResourceManager为该应用程序分配第一个Container,并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。


步骤3:ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4~7。


步骤4:ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。


步骤5:一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。


步骤6:NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。


步骤7:各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。


步骤8:应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。




对上了暗号

才能有福利

技巧 | HDFS & MAPREDUCE,文末有福利

后台回复关键词“电子书+姓名+手机号+公司名称”

即可获得“大数据转化价值的10种方法”下载链接


-- END --

大数据整体解决方案

为客户提供大数据分析平台端到端解决方案


Ebistrategy

亦 策 软 件

400-676-1711

长按关注

以上是关于技巧 | HDFS & MAPREDUCE,文末有福利的主要内容,如果未能解决你的问题,请参考以下文章

优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

作业提交过程之HDFS&MapReduce

作业提交过程之HDFS&MapReduce

CDH4.4:从 shell 重启 HDFS 和 MapReduce

大数据-Hadoop2.7实现PageRank算法-MapReduce&HDFS

大数据-Hadoop2.7实现PageRank算法-MapReduce&HDFS