大数据从0到一(HDFS)

Posted 2023-02-09 粪乧

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据从0到一(HDFS)相关的知识，希望对你有一定的参考价值。

什么是HDFS

Hadoop 实现了一个分布式文件系统 (Hadoop Distributed File System) 
源于Google 的GFS 论文
HDFS DFS的克隆版

设计目标

1. 非常巨大的分布式文件系统
2. 运行在普通廉价的硬件上
3. 易扩展. 为用户提供性能不错的文件储存服务

HDFS 架构官方介绍

1.NameNode
HDFS具有主/从体系结构。一个HDFS集群包含一个NameNode，一个管理文件系统名称空间的主服务器，并管理客户端对文件的访问。
NameNode执行文件系统命名空间操作，如打开，关闭和重命名文件和目录。
2.DataNodes
此外，还有许多DataNode，通常是群集中的每个节点一个DataNode，用于管理连接到它们所运行的节点的存储。
HDFS公开文件系统名称空间，并允许用户数据存储在文件中。在内部，文件被分成一个或多个块，这些块被存储在一组DataNode中。

文件副本机制

副本存放策略
与客户端同一机架储存 —–> 其他机架储存多份

HDFS 环境的搭建

使用版本 hadoop-2.6.0-cdh5.7.0
下载地址 : http://archive-primary.cloudera.com/cdh5/cdh/5/
搜索 hadoop-2.6 cdh
前提软件储备
1. jdk的安装 tar -zxvf jdk-*.tar.gz -C ~/app
2. 解压 hadoop 压缩包
3. hadoop配置文件的修改(hadoop_home/etc/hadoop)

    hadoop-env.sh
        export JAVA_HOME=$JAVA_HOME (这个写本地的绝对路径)

    core-site.xml
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:8020</value>
        </property>

        <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/tmp</value>
        </property>

    hdfs-site.xml
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>

    slaves

启动HDFS 格式化文件系统 hdfs namenode -format
启动hdfs: sbin/start-dfs.sh
验证是否启动成功：
DataNode
NameNode
Bootstrap
Jps
SecondaryNameNode
浏览器访问方式： http://ip:50070
停止hdfs
sbin/stop-dfs.sh

以上是关于大数据从0到一(HDFS)的主要内容，如果未能解决你的问题，请参考以下文章

大数据从0到一(HDFS)

什么是HDFS

设计目标

HDFS 架构 官方介绍

HDFS 环境的搭建

HDFS 架构官方介绍