大数据框架-HDFS

Posted 2021-01-05 xiongchang95

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据框架-HDFS相关的知识，希望对你有一定的参考价值。

HDFS：分布式文件系统，运行文件通过网络在多台主机分享的文件系统，分块写入(128M)，适用于一次写入多次查询，不支持并发写(只能一块一块写)，小文件不合适。

nameNode(主节点，单个): 保存HDFS的元数据信息(命名空间信息、文件系统的目录树、文件和block关系即文件对应block列表、dayaNode和block关系)；接受用户读写请求。当它运行的时候，这些信息是存在内存中的，但是这些信息也可以序列化到磁盘上。负责将文件分block存储在磁盘上，多备份存储（由dataNode进行互相之间的水平复制）。

读：在内存中始终保存元数据metedata，用于处理读请求

写：首先向edit文件写日志，写入成功后才会修改内存metedata，但fsimage没改变

技术分享图片

Checkpoint的过程：

技术分享图片

dataNode(从节点，多个) : Datanode是文件系统的工作节点，他们根据客户端或者是namenode的调度存储和检索数据，并且定期向namenode发送他们所存储的块(block)的列表。块默认大小128M，若文件小于128，则不会全占满该块。

Ps:Hadoop2.0，使用zookeeper来提供nameservice(active、standby)，active节点通过journalNode将edits文件时刻写入到介质中，standby节点通过failoverController 进程将数据实时同步所在机器，时刻监控namenode状态，并和zk保持心跳。

以上是关于大数据框架-HDFS的主要内容，如果未能解决你的问题，请参考以下文章

大数据分析之技术框架整理

大数据框架 | Hue与软件的集成

大数据技术大数据软件框架

大数据生态安全框架的实现原理与最佳实践（下篇）

大数据生态安全框架的实现原理与最佳实践（上篇）