Spark环境搭建-----------HDFS分布式文件系统搭建

Posted 2020-09-28 若鸟

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark环境搭建-----------HDFS分布式文件系统搭建相关的知识，希望对你有一定的参考价值。

spark 环境搭建

下载的压缩文件放在~/software/ 解压安装在~/app/

一：分布式文件系统搭建HDFS

1，下载Hadoop

　　HDFS环境搭建使用版本：hadoop-2.6.0-cdh5.7.0

　　下载：wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

　　解压：tar http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/

2，安装JDK

　　下载：从官网下载，ftp上传到software下

　　安装： tar -zxvf jdk-7u51-linux-x64.tar.gz -C ~/app/

　　配置环境变量：vim ./bash_profile

　　　　　　插入 export JAVA_HOME=/root/app/jdk1.7.0_51

　　　　　　　　　　　 export PATh=$JAVA_HOME/bin:$PATH

　　　　　　　　保存 wq

　　　　　　　　　生效 source ./bash_profile

3，机器参数设置：将多个Linux通过免密SSH连接

　　修改机器名：以便直接通过hosts 机器名与IP映射关系直接登录

　　　　vim /etc/sysconfig/network

　　　　NETWORKING=yes

　　　　HOSTNAME=hadoop001

　　设置IP与机器名的映射：

　　　　vim /etc/hosts

　　　　192.168.1.116 hadoop001

　　　　127.0.0.1 localhost

　　ssh免密登录（这个可以不设置，但是重启hadoop进程时是需要手工输入密码才行）

　　　　cd ~

　　　　ssh-keygen -t rsa (不需输入密码，一直回车)

　　　　cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

　　测试：ssh hadoop001 直接连接上另一个虚拟机

4，Hadoop文件修改

　　cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

　　　　1）hadoop-env.sh 配置Java环境

　　　　　　export JAVA_HOME=/root/app/jdk1.7.0_51

　　　　2）core-site.xml

　　　　　　<name>fs.defaultFS</name>
　　　　　　<value>hdfs://hadoop001:8020< 技术分享

alue>
     　　　　　　</property>

     　　　　　　<property>
         　　　　　　<name>hadoop.tmp.dir</name>
        　　　　　　 <value>/home/hadoop/app/tmp< 技术分享

alue>
　　　　　　</property>

　　　　　　第一个<property>：添加默认的HDFS名称：hostname 为Hadoop000 端口8020

　　　　　　第二个<property>：更改Hadoop配置文件目录，默认在temp中，每当系统重启会消失，所有要改成自己建立的文件夹
　　　　

　　　　3） hdfs-site.xml 修改文件系统的副本系数，默认为三个，自己只有一台机器，所以改为1

　　　　　　　　<property>
        　　　　　　　　<name>dfs.replication</name>
        　　　　　　　　<value>1</value>
    　　　　　　 </property>

5，格式化HDFS
　　注意：只是在配置完Hadoop后进行的操作,格式化后数据会丢失

　　命令：bin/hdfs namenode -format

6，启动HDFS

　命令：sbin/start-dfs.sh

　　验证是否启动成功：

　　　　1）jps

　　　　　　DataNode

　　　　　　SecondaryNameNode

　　　　　　NameNode

　　　　2)浏览器

　　　　　　http://hadoop000:50070/

以上是关于Spark环境搭建-----------HDFS分布式文件系统搭建的主要内容，如果未能解决你的问题，请参考以下文章

docker下，极速搭建spark集群(含hdfs集群)

搭建spark伪分散式需要先搭建hadoop吗

Spark SQL 高级编程之 HadoopHiveSpark 环境搭建

Spark环境搭建-----------数据仓库Hive环境搭建

Hadoop集群+Spark集群搭建基于VMware虚拟机教程