Spark环境搭建-----------HDFS分布式文件系统搭建

Posted 若鸟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark环境搭建-----------HDFS分布式文件系统搭建相关的知识,希望对你有一定的参考价值。

spark 环境搭建

下载的压缩文件放在~/software/    解压安装在~/app/

一:分布式文件系统搭建HDFS

1,下载Hadoop

  HDFS环境搭建    使用版本:hadoop-2.6.0-cdh5.7.0

  下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

  解压:tar http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/

2,安装JDK

  下载:从官网下载,ftp上传到software下

  安装: tar -zxvf jdk-7u51-linux-x64.tar.gz -C ~/app/

  配置环境变量:vim ./bash_profile

                 插入  export JAVA_HOME=/root/app/jdk1.7.0_51

             export PATh=$JAVA_HOME/bin:$PATH

           保存   wq

         生效   source ./bash_profile

3,机器参数设置:将多个Linux通过免密SSH连接

  修改机器名:以便直接通过hosts 机器名与IP映射关系直接登录

    vim /etc/sysconfig/network

    NETWORKING=yes

    HOSTNAME=hadoop001

  设置IP与机器名的映射:

    vim /etc/hosts

    192.168.1.116 hadoop001

    127.0.0.1 localhost

  ssh免密登录(这个可以不设置,但是重启hadoop进程时是需要手工输入密码才行)

    cd ~

    ssh-keygen -t rsa             (不需输入密码,一直回车)

    cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

 

  测试:ssh hadoop001   直接连接上另一个虚拟机

 

4,Hadoop文件修改

  cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

    1)hadoop-env.sh          配置Java环境

      export JAVA_HOME=/root/app/jdk1.7.0_51

    2)core-site.xml

      <property>

               <name>fs.defaultFS</name>
               <value>hdfs://hadoop001:8020<技术分享alue>
           </property>

           <property>
               <name>hadoop.tmp.dir</name>
               <value>/home/hadoop/app/tmp<技术分享alue>
           </property>

 

 

 

        

      第一个<property>:添加默认的HDFS名称:hostname 为Hadoop000 端口8020

         第二个<property>:更改Hadoop配置文件目录,默认在temp中,每当系统重启会消失,所有要改成自己建立的文件夹
    
    3) hdfs-site.xml     修改文件系统的副本系数,默认为三个,自己只有一台机器,所以改为1
        <property>
                <name>dfs.replication</name>
                <value>1</value>
            </property>
 
5,格式化HDFS
  注意:只是在配置完Hadoop后进行的操作,格式化后数据会丢失
  命令:bin/hdfs namenode -format
 
6,启动HDFS
   命令:sbin/start-dfs.sh
  验证是否启动成功:
    1)jps
      DataNode
      SecondaryNameNode
      NameNode
    2)浏览器
      http://hadoop000:50070/


  

以上是关于Spark环境搭建-----------HDFS分布式文件系统搭建的主要内容,如果未能解决你的问题,请参考以下文章

docker下,极速搭建spark集群(含hdfs集群)

搭建spark伪分散式需要先搭建hadoop吗

Spark SQL 高级编程之 HadoopHiveSpark 环境搭建

Spark SQL 高级编程之 HadoopHiveSpark 环境搭建

Spark环境搭建-----------数据仓库Hive环境搭建

Hadoop集群+Spark集群搭建基于VMware虚拟机教程