HDFS分布式文件系统
Posted 小企鹅推雪球!
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS分布式文件系统相关的知识,希望对你有一定的参考价值。
文章目录
HDFS 简介
- HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。
- 分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。
- HDFS 是分布式文件系统中的一种。
HDFS的重要概念
- HDFS 通过统一的命名空间目录树来定位文件。
- HDFS是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色(分布式本质是拆分,各司其职);
1. HDFS 的架构是典型的 Master/Slave 结构
- HDFS集群往往是一个NameNode(HA架构会有两个NameNode,类似于联邦机制)+多个DataNode组成。
- NameNode是集群的主节点,DataNode是集群的从节点。
2.分块存储(block机制)
- HDFS 中的文件在物理上是分块存储(block)的,块的大小可以通过配置参数来规定;
- Hadoop2.x版本中默认的block大小是128M;
3. 命名空间(NameSpace)
- HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。
- Namenode 负责维护文件系统的名字空间,任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。
- HDFS提供给客户单一个抽象目录树,访问形式:hdfs://namenode的hostname:port/test/input hdfs://linux121:9000/test/input
4. NameNode元数据管理
- 把目录结构及文件分块位置信息叫做元数据。NameNode的元数据记录每一个文件所对应的block信息(block的id,以及所在的DataNode节点的信息)
5. DataNode数据存储
- 文件的各个 block 的具体存储管理由 DataNode 节点承担。一个block会有多个DataNode来存储,DataNode会定时向NameNode来汇报自己持有的block信息。
6. 副本机制
- 为了容错,文件的所有 block 都会有副本。每个文件的 block 大小和副本系数都是可配置的。
- 应用程序可以指定某个文件的副本数目。副本数量可以在文件创建的时候指定,也可以在之后改变。副本数量默认是3个。
7. 一次写入,多次读出
- HDFS 是设计成适应一次写入,多次读出的场景,且不支持文件的随机修改。 (支持追加写入,不只支持随机更新)。
- HDFS 适合用来做大数据分析的底层存储服务,并不适合用来做网盘等应用(主要是因为修改不方便,延迟大,网络开销大,成本太高)
HDFS 架构
- NameNode(nn):Hdfs集群的管理者,Master,其主要作用有:
1.1 维护管理Hdfs的名称空间(NameSpace)
1.2 维护副本策略。
1.3 记录文件块(Block)的映射信息。
1.4 负责处理客户端读写请求。 - DataNode:NameNode下达命令,DataNode执行实际操作,Slave节点。DataNode的作用有:
2.1 保存实际的数据块。
2.2 负责数据块的读写。 - Client:客户端,Client的作用有:
3.1 上传文件到HDFS的时候,Client负责将文件切分成Block,然后进行上传。
3.2 请求NameNode交互,获取文件的位置信息
3.3 读取或写入文件,与DataNode交互
3.4 Client可以使用一些命令来管理HDFS或者访问HDFS
常见的Shell 命令行操作HDFS
-
基本语法:
bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令
-
查看命令提示:
bin/hdfs dfs
-
启动Hadoop集群:
sbin/start-dfs.sh
和sbin/start-yarn.sh
-
-help
:输出这个命令参数 :hadoop fs -help rm
-
-ls
:显示目录信息:hadoop fs -ls /
-
-mkdir
:在HDFS上创建目录:hadoop fs -mkdir -p /目录名
-
-moveFromLocal
:从本地剪切粘贴到HDFS:hadoop fs -moveFromLocal 文件位置 文件粘贴位置
-
-appendToFile
:追加一个文件到已经存在的文件末尾:hadoop fs -appendToFile 追加文件位置 被追加的文件位置
-
-cat:显示文件内容
:hadoop fs -cat 显示文件
-
-chgrp 、-chmod、-chown
:Linux文件系统中的用法一样,修改文件所属权限 :hadoop fs -chown root:root 文件名
-
-copyFromLocal
:从本地文件系统中拷贝文件到HDFS路径去hadoop fs -copyFromLocal 本地路径 HDFS路径
-
-copyToLocal
:从HDFS拷贝到本地hadoop fs -copyToLocal HDFS路径 本地路径
-
-cp
:从HDFS的一个路径拷贝到HDFS的另一个路径:hadoop fs -cp 原路径 目标路径
-
-mv
:在HDFS目录中移动文件:hadoop fs -mv 原路径 目标路径
-
-get
:等同于copyToLocal,就是从HDFS下载文件到本地:hadoop fs -get HDFS路径 本地路径
-
-put
:等同于copyFromLoca[root@linux121 hadoop-2.9.2]$ hadoop fs -mkdir -p /user/root/test/ #本地文件系统创建yarn.txt [root@linux121 hadoop-2.9.2]$ vim yarn.txt resourcemanager nodemanager [root@linux121 hadoop-2.9.2]$ hadoop fs -put ./yarn.txt /user/root/test/
-
-tail
:显示一个文件的末尾:hadoop fs -tail /user/root/test/yarn.txt
-
-rm
:删除文件或文件夹:hadoop fs -rm /user/root/test/yarn.txt
-
-rmdir
:删除空目录:hadoop fs -rmdir /test
-
-du
:统计文件夹的大小信息:hadoop fs -du -h /user/root/test
-
-setrep
:设置HDFS中文件的副本数量:hadoop fs -setrep 10 /lagou/bigdata/hadoop.txt
设置的副本数只是记录在NameNode的元数据中,是否真的会有这么多副本,还得看DataNode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10
以上是关于HDFS分布式文件系统的主要内容,如果未能解决你的问题,请参考以下文章