大数据从0到一(HDFS)
Posted 粪乧
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据从0到一(HDFS)相关的知识,希望对你有一定的参考价值。
什么是HDFS
Hadoop 实现了一个分布式文件系统 (Hadoop Distributed File System)
源于Google 的GFS 论文
HDFS DFS的克隆版
设计目标
1. 非常巨大的分布式文件系统
2. 运行在普通廉价的硬件上
3. 易扩展. 为用户提供性能不错的文件储存服务
HDFS 架构 官方介绍
1.NameNode
HDFS具有主/从体系结构。一个HDFS集群包含一个NameNode,一个管理文件系统名称空间的主服务器,并管理客户端对文件的访问。
NameNode执行文件系统命名空间操作,如打开,关闭和重命名文件和目录。
2.DataNodes
此外,还有许多DataNode,通常是群集中的每个节点一个DataNode,用于管理连接到它们所运行的节点的存储。
HDFS公开文件系统名称空间,并允许用户数据存储在文件中。在内部,文件被分成一个或多个块,这些块被存储在一组DataNode中。
文件副本机制
副本存放策略
与客户端 同一机架 储存 —–> 其他机架 储存多份
HDFS 环境的搭建
使用版本 hadoop-2.6.0-cdh5.7.0
下载地址 : http://archive-primary.cloudera.com/cdh5/cdh/5/
搜索 hadoop-2.6 cdh
前提软件储备
1. jdk的安装 tar -zxvf jdk-*.tar.gz -C ~/app
2. 解压 hadoop 压缩包
3. hadoop配置文件的修改(hadoop_home/etc/hadoop)
hadoop-env.sh
export JAVA_HOME=$JAVA_HOME (这个写本地的绝对路径)
core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/tmp</value>
</property>
hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
slaves
- 启动HDFS 格式化文件系统 hdfs namenode -format
启动hdfs: sbin/start-dfs.sh
验证是否启动成功:
DataNode
NameNode
Bootstrap
Jps
SecondaryNameNode
浏览器访问方式: http://ip:50070 - 停止hdfs
sbin/stop-dfs.sh
以上是关于大数据从0到一(HDFS)的主要内容,如果未能解决你的问题,请参考以下文章