分布式文件系统hdfs主要由哪些功能模块构成

Posted 2023-03-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了分布式文件系统hdfs主要由哪些功能模块构成相关的知识，希望对你有一定的参考价值。

　　Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

Hadoop分布式文件系统架构
1 NameNode（名称节点）
　　HDFS命名空间采用层次化（树状——译者注）的结构存放文件和目录。
2 映像和日志
　　Inode和定义metadata的系统文件块列表统称为Image(映像).NameNode将整个命名空间映像保存在RAM中。而映像的持久化记录则保存在NameNode的本地文件系统中，该持久化记录被称为Checkpoint(检查点)。NameNode还会记录HDFS中写入的操作，并将其存入一个记录文件，存放在本地文件系统中，这个记录文件被叫做Journal(日志)。
3 数据节点
　　DataNode上的每一个块(block)副本都由两个本地文件系统上的文件共同表示。其中一个文件包含了块（block）本身所需包含的数据，另一个文件则记录了该块的元数据，包括块所含数据大小和文件生成时间戳。数据文件的大小等于该块（block）的真实大小，而不是像传统的文件系统一样，需要用额外的存储空间凑成完整的块。因此，如果一个块里只需要一半的空间存储数据，那么就只需要在本地系统上分配半块的存储空间即可。
4 HDFS客户端
　　用户应用程序通过HDFS客户端连接到HDFS文件系统，通过库文件可导出HDFS文件系统的接口。像很多传统的文件系统一样，HDFS支持文件的读、写和删除操作，还支持对目录的创建和删除操作。与传统的文件系统不同的是，HDFS提供一个API用以暴露文件块的位置。这个功能允许应用程序。
5 检查点节点
　　HDFS中的NameNode节点，除了其主要职责是相应客户端请求以外，还能够有选择地扮演一到两个其他的角色，例如做检查点节点或者备份节点。该角色是在节点启动的时候特有的。
6 备份节点
　　HDFS的备份节点是最近在加入系统的一项特色功能。就像CheckpintNode一样，备份节点能够定期创建检查点，但是不同的是，备份节点一直保存在内存中，随着文件系统命名空间的映像更新和不断更新，并与NameNode的状态随时保持同步。
7 系统更新和文件系统快照
　　在软件更新的过程中，由于软件的bug或者人为操作的失误，文件系统损坏的几率会随之提升。在HDFS中创建系统快照的目的，就在于把系统升级过程中可能对数据造成的隐患降到最低。快照机制让系统管理员将当前系统状态持久化到文件系统中，这样以来，如果系统升级后出现了数据丢失或者损坏，便有机会进行回滚操作，将HDFS的命名空间和存储状态恢复到系统快照进行的时刻。参考技术A HDFS命名空间采用层次化（树状——译者注）的结构存放文件和目录。文件和目录用NameNode上的inodes表示。Inode记录了权限，修改和访问时间，命名空间，磁盘容量等属性。文件内容会被分成不同的“大块”（典型分块策略是每块128M，不过用户可以对每个文件的分块大小进行选择）。NameNode负责维护命名空间树以及与DataNode上文件分块的映射关系。目前采用的设计结构是，没一个集群只有一个NameNode,一个NameNode可以对应多个DataNode以及成千上万的HDFS客户端。一个DataNode可以同步执行多个应用任务。本回答被提问者和网友采纳

以上是关于分布式文件系统hdfs主要由哪些功能模块构成的主要内容，如果未能解决你的问题，请参考以下文章

Hadoop大家庭有哪些？Hadoop家族主要成员关系

大数据技术分析：HDFS分布式系统介绍！

Hadoop三大组件

Hadoop4-HDFS分布式文件系统原理

54.HDFS分布式文件系统

Hadoop学习笔记---HDFS