HDFS-文件读写流程
Posted Jianpan
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS-文件读写流程相关的知识,希望对你有一定的参考价值。
上一篇我们详细地介绍了 HDFS 中各个模块的功能以及原理,这一篇我们来详细的介绍一下文件读取的流程。
1.读文件的流程
如图所示,读文件的流程主要包括以下6个步骤:
打开分布式文件:调用分布式文件 DistributedFileSystem.open( ) 方法;
连接到DataNode:调用输入流 FSDataInputStream.read( ) 方法从而让DFSInputStream 连接到 DataNodes;
从 DataNode 中获取数据:通过循环调用 read( ) 方法,从而将数据从 DataNode 传输到客户端;
读取另外的 DataNode 直到完成:到达块的末端时候,输入流 DFSInputStream 关闭与 DataNode 连接, 寻找下一个 DataNode;
完成读取,关闭连接:即调用输入流 FSDataInputStream.close( );
2.写文件流程
发送创建文件请求:调用分布式文件系统 DistributedFileSystem.create( )方法;
NameNode 创建文件记录:分布式文件系统 DistributedFileSystem 发送 RPC 请求给 NameNode,NameNode 检查权限后创建一条记录,返回输出流 FSDataOutputStream,封装了输出流 DFSOutputDtream;
客户端写入数据:输出流 DFSOutputDtream 将数据分成一个个的数据包,并写入内部队列。DataStreamer 根据 DataNode 列表来要求 NameNode 分配适合的新块来存储数据备份。 一组 DataNode 构成管线(管线的 DataNode 之间使用 Socket 流式通信);
使用管线传输数据:DataStreamer 将数据包流式传输到管线第一个DataNode,第一个 DataNode 再传到第二个DataNode,直到完成;
确认队列:DataNode 收到数据后发送确认,管线的 DataNode 所有的确认组成一个确认队列。所有 DataNode 都确认,管线数据包删除;
关闭:客户端对数据量调用 close( ) 方法。将剩余所有数据写入DataNode管线,联系NameNode并且发送文件写入完成信息之前等待确认;
NameNode确认:
故障处理:若过程中发生故障,则先关闭管线,把队列中所有数据包添加回去队列,确保数据包不漏。为另一个正常 DataNode 的当前数据块指定一个新的标识,并将该标识传送给 NameNode,一遍故障 DataNode 在恢复后删除上面的不完整数据块。从管线中删除故障 DataNode 并把余下的数据块写入余下正常的 DataNode。NameNode 发现复本两不足时,会在另一个节点创建一个新的复本;
在数据的读取过程中难免碰到网络故障,脏数据,DataNode 失效等问题,这些问题 HDFS 在设计的时候都早已考虑到了。下面来介绍一下数据损坏处理流程:
当 DataNode 读取 block 的时候,它会计算 checksum。
如果计算后的 checksum,与 block 创建时值不一样,说明该 block 已经损坏。
Client 读取其它 DataNode上的 block。
NameNode 标记该块已经损坏,然后复制 block 达到预期设置的文件备份数 。
DataNode 在其文件创建后验证其 checksum。
理解HDFS架构优缺点
HDFS优点:
数据冗余,硬件容错
处理流式的数据访问(一次写入,多次读取的操作)
适合存储大文件
可构建在廉价的机器上
缺点:
不适合低延迟的数据访问
不适合小文件的存储
不支持多用户写入及任意修改文件
如果觉得文章不错,欢迎转发点赞,另外有错误欢迎留言指出,谢谢。
更多好文,敬请期待!
以上是关于HDFS-文件读写流程的主要内容,如果未能解决你的问题,请参考以下文章