Spark的介绍和集群部署

Posted lyr999736

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark的介绍和集群部署相关的知识,希望对你有一定的参考价值。

介绍

 

  1.spark处理大数据的统一分析计算引擎;

    a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍;
    b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等
    c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark SQL、spark Stresaming、spark MLLib和图计算;
    d.运行: spark支持在hadoop、Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud.
  2.spark安装部署:
    0).版本选型:spark2.1.2。依赖scala2.11.8
    1).下载spark2.1.2.tar.gz
    2).解压安装:
      $>cd /home/hyxy/soft/
      $>cp /mnt/hgfs/2.安装环境/download/apache-spark/spark-2.1.2-bin-hadoop2.7.tgz .
      $>tar -zxvf spark-2.1.2-bin-hadoop2.7.tgz
      $>ln -s spark-2.1.2-bin-hadoop2.7 spark
    3).配置环境变量
      修改【~/.bash_profile】,在文件尾部追加以下内容:
        #spark install
        export SPARK_HOME=/home/hyxy/soft/spark
        export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
        $>source ~/.bash_profile
    4).至此,单机版搭建完成!
      $>spark-shell
      访问WebUI:HTTP://master:4040

集群模式部署

 

  

  0.说明:如果现有的集群框架中存在MR的相关应用,同时相关的MR无法转换为Spark应用的,集群选型为Spark On Yarn;
      如果现有的集群框架中只有Spark应用,那么建议采用spark Standalone模式;
  1.spark可以运行在不同的计算引擎上,所以集群模式安装分不同种情况:
      说明:spark的Standalone模式和Spark on Yarn占比比较多。
        a.spark的Standalone集群模式安装
          1.复制三个文件,并修改:
            $>cp spark-env.sh.template spark-env.sh
              添加以下内容,注意:“=”附近无空格:
                export JAVA_HOME=/home/hyxy/soft/jdk
                export SPARK_MASTER_HOST=master
                export SPARK_MASTER_PORT=7077
                $>cp slaves.template slaves
              添加工作节点(Worker),如下:
                master
                slave1
                slave2
                $>cp spark-defaults.conf.template spark-defaults.conf
          2.远程scp复制spark安装目录至其它节点:slave1和slave2;
            $>scp -r ~/soft/spark-2.1.2-bin-hadoop2.7/ [email protected]:/home/hyxy/soft/
            $>ln -s spark-2.1.2-bin-hadoop2.7 spark //在Slave1节点上
          3.分别修改slave1、slave2等的环境变量;
          4.开启spark Standalone集群的守护进程
            $>start-master.sh //开启spark的Master守护进程
            $>start-slaves.sh //开启spark的Worker守护进程
          5.测试
            访问WebUI界面:http://master:8080
            $>spark-shell --master spark://master:7077
            观察WebUI的网页说明;
      b.Spark on Yarn集群模式安装
        1).修改spark-env.sh文件,添加以下内容:
          export HADOOP_CONF_DIR=/home/hyxy/soft/hadoop/etc/hadoop
        2).测试:
        开启hadoop:
          $>zkserver.sh start
          $>start-dfs.sh
          $>start-yarn.sh
        启动spark:
          $>spark-shell --master yarn-client
        3).注意:抛异常,资源调用超出上限,修改默认校验
          修改{HADOOP_HOEM/etc/hadoop}/yarn-site.xml
            <property>
              <name>yarn.nodemanager.pmem-check-enabled</name>
              <value>false</value>
            </property>

            <property>
              <name>yarn.nodemanager.vmem-check-enabled</name>
              <value>false</value>
            </property>
        分发至集群其它节点,重启Hadoop,即可!!




































































以上是关于Spark的介绍和集群部署的主要内容,如果未能解决你的问题,请参考以下文章

Spark集群管理器介绍

Spark介绍及基于YARN模式的Spark集群部署

VMware部署Spark集群

spark几种部署模式,每种模式特点及搭建

Spark部署在Yarn集群

Spark部署在Yarn集群