Spark入门教程Spark2.2源码编译及安装配置

Posted chendongjing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark入门教程Spark2.2源码编译及安装配置相关的知识,希望对你有一定的参考价值。

Spark2.2源码下载


点此进入官网下载地址: 下载Spark

 
技术分享图片
spark官网下载截图

//下载好后用传输工具传输到我们的linux上并解压缩
tar -zxvf spark-2.2.0.tgz

 

源码编译


准备工作

根据Spark官方文档可知,需要java8+,maven 3.3.9+版本


 
技术分享图片
spark编译需知
确认jave8.0已成功安装
 
技术分享图片
检验java是否成功安装
确认Maven3.3.9已成功安装
 
技术分享图片
检验maven是否成功安装

如果不知道如何安装,参考如下步骤:
(1)点此下载maven
(2)解压缩:
tar -zxvf apache-maven-3.3.9-bin.tar.gz
(3)配置环境变量:
vim /etc/profile
export MAVEN_HOME=/usr/local/apache-maven-3.3.9
//根据机器配置为maven分配尽可能多的内存,可以使得编译更加快速
export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=1024m"
export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH
//最后不要忘记source命令使得配置立即生效
source /etc/profile

确认机器能够链接外网

vim /etc/resolv.conf
namserver 8.8.8.8 nameserver 8.8.4.4
//检验是否成功链接外网
ping www.baidu.com

开始编译


cd /usr/local/spark-2.2.0
./dev/make-distribution.sh --name custom-spark --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn

  • --name之后的custom-spark是编译好后生成的那个tgz文件的文件名,可以自定义
  • Phadoop要根据自己已经安装好了的hadoop版本写
  • 如果要运行R语言请加上-Psparkr,否则请省略以提高编译速度
  • 如果要使用mesos请加上-Pmesos,否则请省略以提高编译速度

编译需要40分钟左右:成功后在spark-2.2.0目录下出现spark-2.2.0-bin-custom-spark.tgz包
将它移动到其他目录下:mv spark-2.2.0-bin-custom-spark.tgz /usr/local/

Scala2.11.8下载安装


  • 点此下载:scala-2.11.8.tgz
  • tar -zxvf scala-2.11.8.tgz
  • 配置SCALA_HOME环境变量
    vim /etc/profile
    export SCALA_HOME=/usr/local/scala-2.11.8
    export PATH=$SCALA_HOME/bin:$PATH
    source /etc/profile

Spark配置


  • 进入conf目录 将spark-env.sh.template和slaves.template改名
    mv spark-env.sh.template spark-env.sh
    mv slaves.template slaves
  • 配置spark-env.sh:加上这几个环境变量即可
    export JAVA_HOME=/usr/local/jdk1.8
    export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0-cdh5.11.1/etc/hadoop
    export SCALA_HOME=/usr/local/scala-2.11.8
  • 集群配置:配置slaves,把你的集群中每个机器的主机名写上去即可
    master
    slave1
    slave2
  • 配置好之后分发到集群中其他机器上
    scp -r spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1 slave1:/usr/local/
    scp -r spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1 slave2:/usr/local/

验证Spark


cd /usr/local/spark-2.2.0-bin-hadoop2.6.0-cdh5.11.1/
bin/spark-shell

出现如下界面即可:


 
技术分享图片
spark运行截图


作者:Seven_Ki
链接:https://www.jianshu.com/p/97afd1940fc5
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。









































以上是关于Spark入门教程Spark2.2源码编译及安装配置的主要内容,如果未能解决你的问题,请参考以下文章

Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x

Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x

部署Spark2.2集群(on Yarn模式)

spark2.2 从入门到精通全套视频教程(含网盘下载地址)

spark2.2.2安装和集群搭建

在CDH上用外部Spark2.2.1安装和配置 CarbonData