#yyds干货盘点# 大数据技术栈之Hadoop-HDFS

Posted 2022-02-10 juggles

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了#yyds干货盘点# 大数据技术栈之Hadoop-HDFS相关的知识，希望对你有一定的参考价值。

概述

Hadoop是一个分布式系统基础架构
主要解决海量数据的存储和分析计算

hadoop作为大数据技术栈必须要掌握的框架，且Hadpood生态圈非常强大

#yyds干货盘点#

Hadoop组成

HDFS（Hadoop Distributed File System）

分布式文件存储系统，适合一次写入，多次读出，切不修改

优点

高容错，数据可以保存成多副本，防止数据丢失
适合处理大数据量存储，分布式存储
可构建在廉价机器上，节省资源

缺点

不适合低延时数据访问
无法高效对大量小文件进行存储，小问题太多会占有NameNode大量内存来存储文件目录和块信息
不支持并发写入一个文件，只能追加写

架构

#yyds干货盘点#

NameNode：就是master节点

管理HDFS的名称空间
配置副本策略
管理数据块映射信息
处理客户端读写请求

DataNode：就是slave节点

存储实际的数据块
执行数据块的读/写操作

Client：客户端

文件切分，文件上传HDFS时，将文件切分成一个个Block，然后再上传
与NameNode节点交互，获取文件位置信息

Secondary NameNode：

辅助NameNode，定期河北Fsimage和Edits，并推送给NameNode
紧急情况下，可辅助恢复NameNode

文件块大小

HDFS文件在物理上是分块存储（Block），可自定义设置dfs.blocksize

block大小主要取决于磁盘传输速度，寻址时间为传输时间的1%时，则为最佳时间

块太大，磁盘数据传输时间就很大
块太小，查询数据可以会多次寻址，增加寻址时间

HDFS数据读写流程

写文件

#yyds干货盘点#

1）客户端向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

2）NameNode返回是否可以上传。

3）客户端请求NameNode询问第一个Block上传哪几个DataNode

4）NameNode返回DataNode节点信息

5）客户端请求DataNode1上传数据，DataNode1收到请求会继续调用DataNode2，然后DataNode2调用DataNode3，建立通信管道

6）DataNode1，DataNode2，DataNode3逐级应答

7）客户端开始发送第一个Block数据，DataNode1收到数据之后再传给DataNode2，DataNode1美传一个packet会放入一个应答队列等待相应，链式传递下去

8）完成第一个Block传递之后，客户端再请求NameNode获取DataNode信息。。。

NameNode如何选择DataNode

本来就近原则，会选择最近的DataNode，如何计算最近？

这里不多介绍，有兴趣可以深入研究

NameNode工作机制

#yyds干货盘点#

第一阶段：NameNode启动

第一次启动NameNode格式化后，创建Fsimage和Edits文件，如果非第一次启动，直接加载Fsimage和Edits
客户端对元数据进行增删改请求
NameNode记录操作日期，更新滚动日子
NameNode在内存中对数据进行增删改

第二阶段：Secondary NameNode工作

Secondary NameNode询问NameNode是否需要CheckPoint
Secondary NameNode请求执行CheckPoint
NameNode滚动正在写的Edits日志
将滚动前的Edits、Fsimage拷贝到Secondary NameNode
Secondary NameNode加载Edits、Fsimage到内存，再合并
生成新的镜像文件fsimage.chkpoint
拷贝fsimage.chkpoint到NameNode
NameNode将fsimage.chkpoint重命名成fsimage

读文件

#yyds干货盘点#

1）客户端请求NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址

2）挑选一台DataNode（就近原则），请求读取数据

3）DataNode开始传输数据给客户端，以Packet为单位发送

4）客户端以Packet为单位接收，现在本地内存缓存，然后写入文件

以上是关于#yyds干货盘点# 大数据技术栈之Hadoop-HDFS的主要内容，如果未能解决你的问题，请参考以下文章

#yyds干货盘点#Hadoop企业级生产调优手册

sqoop用法之mysql与hive数据导入导出#yyds干货盘点#

Hadoop 集群完全分布式安装 #yyds干货盘点#

#yyds干货盘点#Hadoop企业级生产调优手册

#yyds干货盘点# MySQL性能优化：深入理解索引的这点事

#yyds干货盘点# MySQL性能优化：选择优化的数据类型