大数据从0到一(HDFS)

Posted 粪乧

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据从0到一(HDFS)相关的知识,希望对你有一定的参考价值。

什么是HDFS

Hadoop 实现了一个分布式文件系统 (Hadoop Distributed File System) 
源于Google 的GFS 论文
HDFS DFS的克隆版

设计目标

1. 非常巨大的分布式文件系统
2. 运行在普通廉价的硬件上
3. 易扩展. 为用户提供性能不错的文件储存服务

HDFS 架构 官方介绍

1.NameNode
HDFS具有主/从体系结构。一个HDFS集群包含一个NameNode,一个管理文件系统名称空间的主服务器,并管理客户端对文件的访问。
NameNode执行文件系统命名空间操作,如打开,关闭和重命名文件和目录。
2.DataNodes
此外,还有许多DataNode,通常是群集中的每个节点一个DataNode,用于管理连接到它们所运行的节点的存储。
HDFS公开文件系统名称空间,并允许用户数据存储在文件中。在内部,文件被分成一个或多个块,这些块被存储在一组DataNode中。

文件副本机制

副本存放策略
与客户端 同一机架 储存 —–> 其他机架 储存多份

HDFS 环境的搭建

使用版本 hadoop-2.6.0-cdh5.7.0
下载地址 : http://archive-primary.cloudera.com/cdh5/cdh/5/
搜索 hadoop-2.6 cdh
前提软件储备
1. jdk的安装 tar -zxvf jdk-*.tar.gz -C ~/app
2. 解压 hadoop 压缩包
3. hadoop配置文件的修改(hadoop_home/etc/hadoop)

    hadoop-env.sh
        export JAVA_HOME=$JAVA_HOME (这个写本地的绝对路径)

    core-site.xml
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:8020</value>
        </property>

        <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/tmp</value>
        </property>

    hdfs-site.xml
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>

    slaves    
  1. 启动HDFS 格式化文件系统 hdfs namenode -format
    启动hdfs: sbin/start-dfs.sh
    验证是否启动成功:
    DataNode
    NameNode
    Bootstrap
    Jps
    SecondaryNameNode
    浏览器访问方式: http://ip:50070
  2. 停止hdfs
    sbin/stop-dfs.sh

以上是关于大数据从0到一(HDFS)的主要内容,如果未能解决你的问题,请参考以下文章

大数据-Hadoop生态-HDFS的读写数据流程以及机架感知

[HDFS_add_3] HDFS 机架感知

大数据系列文章-Hadoop的HDFS读写流程

HadoopHadoop 机架感知配置原理

hadoop之 hadoop 机架感知

hdfs 机架感知