Spark的安装与配置

Posted Shall潇

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark的安装与配置相关的知识,希望对你有一定的参考价值。

一、解压缩并安装

先安装Scala,再安装Spark

tar -zxvf scala-2.11.12.tgz
mv scala-2.11.12.tgz scala
tar -zxvf spark-2.4.7-bin-hadoop2.6.tgz
mv spark-2.4.7-bin-hadoop2.6.tgz spark

二、配置环境变量

文末添加如下代码

export SCALA_HOME=/opt/soft/scala
export PATH=$SCALA_HOME/bin:$PATH
export SPARK_HOME=/opt/soft/spark
export SPARK_CONF_DIR=$SPARK_HOME/conf
export PATH=$SPARK_HOME/bin:$PATH

配置完记得 source一下

三、修改配置文件

进入spark/conf 文件夹下

cp spark-env.sh.template spark-env.sh
vi spark-env.sh

文末添加如下代码

export JAVA_HOME=/root/soft/jdk1.8.0_221
export SCALA_HOME=/opt/soft/scala
export SPARK_HOME=/opt/soft/spark
export HADOOP_HOME=/opt/soft/hadoop
export HADOOP_CONF_DIR=/opt/soft/hadoop/etc/hadoop
export SPARK_MASTER_IP=hadoop100
export SPARK_EXECUTOR_MEMORY=1G

高可用的话,需要设置工作节点(添加对应的主机名),我这里是伪分布式所以只是默认的localhost

在这里插入图片描述

四、启动Spark

spark-shell

在这里插入图片描述

五、运行程序

WorldCount

先在内存中定义好
【注意:sc指的是SparkContext,parallelize用来创建RDD(弹性分布式数据集)】

val rdd2 = sc.parallelize(Array("hello java","hello scala","hello spark","spark is based scala"))

第一种方式:map+reduceByKey

rdd2.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).collect

在这里插入图片描述
第二种方式:map+groupByKey

rdd2.flatMap(_.split(" ")).map(x=>(x,1)).groupByKey().map(x=>(x._1,x._2.size)).collect

在这里插入图片描述
第三种方式:countByValue

rdd2.flatMap(_.split(" ")).countByValue().foreach(println)

在这里插入图片描述

以上是关于Spark的安装与配置的主要内容,如果未能解决你的问题,请参考以下文章

在这个 spark 代码片段中 ordering.by 是啥意思?

Hadoop 之 Spark 安装配置与示例

Spark的安装与配置

python+spark程序代码片段

大数据高可用集群环境安装与配置(09)——安装Spark高可用集群

Spark 2.2.0 安装与配置