hdfs启动流程

Posted Just do DT

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hdfs启动流程相关的知识,希望对你有一定的参考价值。

NameNode

1.init()

namenode初始化,执行加载配置文件等操作

2.loadFsImage()

2、loadFsImage() ,开始加载元数据 FsImage 

3.loadEditlog()

加载Editlog,将Editlog中记录的元数据修改应用到内存中;

4.saveCheckpoint()

将内存中最新的目录树持久化为新的FsImage到磁盘,以加快下次启动速度

5.startRpcServer()

启动RPC服务,开始接受外部请求;

6.startTrashEmptier()

如果启用了回收站机制,初始化垃圾清理线程,定期删除回收站中的数据;

DataNode

7.init()

Datanode初始化,执行加载配置文件等操作。namenode与datanode同时启动,与1-6无先后关系

NameNode

8.register()

datanode发起PRC请求,将自身注册到集群;注册消息主要包含 hostname 和blockPool 标识(namenode格式化时生效,类似UUID,全局唯一),用于判断改datanode是否允许接入该集群。

DataNode

9.scanBlock()

datanode按照配置的数据存储路径,并行扫描本地数据磁盘,加载数据块信息到内存中(主要是块id,块文件物理路径等元数据信息,不包含数据块内容本身)

NameNode

10.safeMode()

namenode在完成自身的一些列初始化流程后进入安全模式,等待datanode上报数据块信息。此时,系统是只读的。

11.blockReport()

datanode在完成数据磁盘扫描后生成块报告,上报给namenode,每个块使用三个long值描述,即块id,块长度,版本时间戳GS,共24字节(通过网络发送时,使用变长编码,因此通常远小于24字节)

DataNode

12.startDataXceiverServer()

datanode启动字节传输服务,开始接受数据块的读写请求

13.startRpcServer()

datanode启动RPC服务,该服务主要用于集群内部通信,传输管理命令

NameNode

14.wait()

namenode在收到足够数量的blockReport之后(默认为99.9%的块达到了,最小副本为1,等待额外的30秒,推出安全模式,此时namenode完成数据块个datanode的映射关系,允许接受读写请求。

namenode与datanode均采用多线程架构,没有严格的顺序,多个线程并行在后台运行。


 hdfs 启动流程图如下:


以上是关于hdfs启动流程的主要内容,如果未能解决你的问题,请参考以下文章

HDFS——DN整体架构与启动流程

hdfs 相关概念

大数据面试题——hadoop(hdfsmapreduceyarn)

spark 启动job的流程分析

Flink on Yarn模式启动流程分析

Flink on Yarn模式启动流程分析