大数据 | HDFS前言

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据 | HDFS前言相关的知识，希望对你有一定的参考价值。

HDFS前言

设计思想

分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；

在大数据系统中作用：

为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务

重点概念：

文件切块，副本存放，元数据

重要特性如下：

⑴ HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M

⑵ HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

⑶ 目录结构及文件分块信息(元数据)的管理由namenode节点承担——namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每一个路径（文件）所对应的block块信息（block的id，及所在的datanode服务器）

⑷ 文件的各个block的存储管理由datanode节点承担---- datanode是HDFS集群从节点，每一个block都可以在多个datanode上存储多个副本（副本数量也可以通过参数设置dfs.replication）

⑸ HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改

点击底部链接

申请加入大学生俱乐部

以上是关于大数据 | HDFS前言的主要内容，如果未能解决你的问题，请参考以下文章