HDFS分布式文件系统

Posted 小企鹅推雪球!

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HDFS分布式文件系统相关的知识,希望对你有一定的参考价值。

文章目录

HDFS 简介

  1. HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。
  2. 分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。
  3. HDFS 是分布式文件系统中的一种。

HDFS的重要概念

  1. HDFS 通过统一的命名空间目录树来定位文件。
  2. HDFS是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色(分布式本质是拆分,各司其职);

1. HDFS 的架构是典型的 Master/Slave 结构

  1. HDFS集群往往是一个NameNode(HA架构会有两个NameNode,类似于联邦机制)+多个DataNode组成。
  2. NameNode是集群的主节点,DataNode是集群的从节点。

2.分块存储(block机制)

  1. HDFS 中的文件在物理上是分块存储(block)的,块的大小可以通过配置参数来规定;
  2. Hadoop2.x版本中默认的block大小是128M;

3. 命名空间(NameSpace)

  1. HDFS 支持传统的层次型文件组织结构。用户或者应用程序可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。
  2. Namenode 负责维护文件系统的名字空间,任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。
  3. HDFS提供给客户单一个抽象目录树,访问形式:hdfs://namenode的hostname:port/test/input hdfs://linux121:9000/test/input

4. NameNode元数据管理

  1. 把目录结构及文件分块位置信息叫做元数据。NameNode的元数据记录每一个文件所对应的block信息(block的id,以及所在的DataNode节点的信息)

5. DataNode数据存储

  1. 文件的各个 block 的具体存储管理由 DataNode 节点承担。一个block会有多个DataNode来存储,DataNode会定时向NameNode来汇报自己持有的block信息。

6. 副本机制

  1. 为了容错,文件的所有 block 都会有副本。每个文件的 block 大小和副本系数都是可配置的。
  2. 应用程序可以指定某个文件的副本数目。副本数量可以在文件创建的时候指定,也可以在之后改变。副本数量默认是3个。

7. 一次写入,多次读出

  1. HDFS 是设计成适应一次写入,多次读出的场景,且不支持文件的随机修改。 (支持追加写入,不只支持随机更新)。
  2. HDFS 适合用来做大数据分析的底层存储服务,并不适合用来做网盘等应用(主要是因为修改不方便,延迟大,网络开销大,成本太高)

HDFS 架构

  1. NameNode(nn):Hdfs集群的管理者,Master,其主要作用有:
    1.1 维护管理Hdfs的名称空间(NameSpace)
    1.2 维护副本策略。
    1.3 记录文件块(Block)的映射信息。
    1.4 负责处理客户端读写请求。
  2. DataNode:NameNode下达命令,DataNode执行实际操作,Slave节点。DataNode的作用有:
    2.1 保存实际的数据块。
    2.2 负责数据块的读写。
  3. Client:客户端,Client的作用有:
    3.1 上传文件到HDFS的时候,Client负责将文件切分成Block,然后进行上传。
    3.2 请求NameNode交互,获取文件的位置信息
    3.3 读取或写入文件,与DataNode交互
    3.4 Client可以使用一些命令来管理HDFS或者访问HDFS

常见的Shell 命令行操作HDFS

  1. 基本语法:bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令

  2. 查看命令提示:bin/hdfs dfs

  3. 启动Hadoop集群:sbin/start-dfs.shsbin/start-yarn.sh

  4. -help:输出这个命令参数 : hadoop fs -help rm

  5. -ls:显示目录信息:hadoop fs -ls /

  6. -mkdir:在HDFS上创建目录:hadoop fs -mkdir -p /目录名

  7. -moveFromLocal:从本地剪切粘贴到HDFS: hadoop fs -moveFromLocal 文件位置 文件粘贴位置

  8. -appendToFile:追加一个文件到已经存在的文件末尾:hadoop fs -appendToFile 追加文件位置 被追加的文件位置

  9. -cat:显示文件内容:hadoop fs -cat 显示文件

  10. -chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限 :hadoop fs -chown root:root 文件名

  11. -copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去hadoop fs -copyFromLocal 本地路径 HDFS路径

  12. -copyToLocal:从HDFS拷贝到本地hadoop fs -copyToLocal HDFS路径 本地路径

  13. -cp :从HDFS的一个路径拷贝到HDFS的另一个路径:hadoop fs -cp 原路径 目标路径

  14. -mv :在HDFS目录中移动文件:hadoop fs -mv 原路径 目标路径

  15. -get:等同于copyToLocal,就是从HDFS下载文件到本地:hadoop fs -get HDFS路径 本地路径

  16. -put:等同于copyFromLoca

    [root@linux121 hadoop-2.9.2]$ hadoop fs -mkdir -p /user/root/test/
    #本地文件系统创建yarn.txt
    [root@linux121 hadoop-2.9.2]$ vim yarn.txt
    resourcemanager nodemanager
    [root@linux121 hadoop-2.9.2]$ hadoop fs -put ./yarn.txt /user/root/test/
    
  17. -tail:显示一个文件的末尾:hadoop fs -tail /user/root/test/yarn.txt

  18. -rm:删除文件或文件夹:hadoop fs -rm /user/root/test/yarn.txt

  19. -rmdir:删除空目录: hadoop fs -rmdir /test

  20. -du:统计文件夹的大小信息: hadoop fs -du -h /user/root/test

  21. -setrep:设置HDFS中文件的副本数量:hadoop fs -setrep 10 /lagou/bigdata/hadoop.txt
    设置的副本数只是记录在NameNode的元数据中,是否真的会有这么多副本,还得看DataNode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10

以上是关于HDFS分布式文件系统的主要内容,如果未能解决你的问题,请参考以下文章

浅谈HDFS分布式文件系统

HDFS 分布式文件系统

HDFS分布式文件系统

HDFS分布式文件系统

HDFS分布式文件系统

分布式文件系统 HDFS