HDFS-文件读写流程

Posted Jianpan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS-文件读写流程相关的知识,希望对你有一定的参考价值。

上一篇我们详细地介绍了 HDFS 中各个模块的功能以及原理,这一篇我们来详细的介绍一下文件读取的流程。


1.读文件的流程

如图所示,读文件的流程主要包括以下6个步骤:

  1. 打开分布式文件:调用分布式文件 DistributedFileSystem.open( ) 方法;

  2. 连接到DataNode:调用输入流 FSDataInputStream.read( ) 方法从而让DFSInputStream 连接到 DataNodes;

  3. 从 DataNode 中获取数据:通过循环调用 read( ) 方法,从而将数据从 DataNode 传输到客户端;

  4. 读取另外的 DataNode 直到完成:到达块的末端时候,输入流 DFSInputStream 关闭与 DataNode 连接, 寻找下一个 DataNode;

  5. 完成读取,关闭连接:即调用输入流 FSDataInputStream.close( );

                           

2.写文件流程

  1. 发送创建文件请求:调用分布式文件系统 DistributedFileSystem.create( )方法;

  2. NameNode 创建文件记录:分布式文件系统 DistributedFileSystem 发送 RPC 请求给 NameNode,NameNode 检查权限后创建一条记录,返回输出流 FSDataOutputStream,封装了输出流 DFSOutputDtream;

  3. 客户端写入数据:输出流 DFSOutputDtream 将数据分成一个个的数据包,并写入内部队列。DataStreamer 根据 DataNode 列表来要求 NameNode 分配适合的新块来存储数据备份。 一组 DataNode 构成管线(管线的 DataNode 之间使用 Socket 流式通信);

  4. 使用管线传输数据:DataStreamer 将数据包流式传输到管线第一个DataNode,第一个 DataNode 再传到第二个DataNode,直到完成;

  5. 确认队列:DataNode 收到数据后发送确认,管线的 DataNode 所有的确认组成一个确认队列。所有 DataNode 都确认,管线数据包删除;

  6. 关闭:客户端对数据量调用 close( ) 方法。将剩余所有数据写入DataNode管线,联系NameNode并且发送文件写入完成信息之前等待确认;

  7. NameNode确认:

  8. 故障处理:若过程中发生故障,则先关闭管线,把队列中所有数据包添加回去队列,确保数据包不漏。为另一个正常 DataNode 的当前数据块指定一个新的标识,并将该标识传送给 NameNode,一遍故障 DataNode 在恢复后删除上面的不完整数据块。从管线中删除故障 DataNode 并把余下的数据块写入余下正常的 DataNode。NameNode 发现复本两不足时,会在另一个节点创建一个新的复本;


在数据的读取过程中难免碰到网络故障,脏数据,DataNode 失效等问题,这些问题 HDFS 在设计的时候都早已考虑到了。下面来介绍一下数据损坏处理流程:


  • 当 DataNode 读取 block 的时候,它会计算 checksum。

  • 如果计算后的 checksum,与 block 创建时值不一样,说明该 block 已经损坏。  

  • Client 读取其它 DataNode上的 block。

  • NameNode 标记该块已经损坏,然后复制 block 达到预期设置的文件备份数 。

  • DataNode 在其文件创建后验证其 checksum。



理解HDFS架构优缺点

HDFS优点: 

  1. 数据冗余,硬件容错

  2. 处理流式的数据访问(一次写入,多次读取的操作)

  3. 适合存储大文件

  4. 可构建在廉价的机器上

缺点:

  1. 不适合低延迟的数据访问

  2. 不适合小文件的存储

  3. 不支持多用户写入及任意修改文件



如果觉得文章不错,欢迎转发点赞,另外有错误欢迎留言指出,谢谢。


 

更多好文,敬请期待!






以上是关于HDFS-文件读写流程的主要内容,如果未能解决你的问题,请参考以下文章

HDFS-文件读写流程

HDFS文件读写流程简单图解

Hadoop面试重点HDFS 的读写流程

HDFS架构及文件读写流程

HDFS读写流程简介

图文详解HDFS 系统架构与文件数据读写流程