Spark的安装与配置
Posted Shall潇
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark的安装与配置相关的知识,希望对你有一定的参考价值。
一、解压缩并安装
先安装Scala,再安装Spark
tar -zxvf scala-2.11.12.tgz
mv scala-2.11.12.tgz scala
tar -zxvf spark-2.4.7-bin-hadoop2.6.tgz
mv spark-2.4.7-bin-hadoop2.6.tgz spark
二、配置环境变量
文末添加如下代码
export SCALA_HOME=/opt/soft/scala
export PATH=$SCALA_HOME/bin:$PATH
export SPARK_HOME=/opt/soft/spark
export SPARK_CONF_DIR=$SPARK_HOME/conf
export PATH=$SPARK_HOME/bin:$PATH
配置完记得 source一下
三、修改配置文件
进入spark/conf 文件夹下
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
文末添加如下代码
export JAVA_HOME=/root/soft/jdk1.8.0_221
export SCALA_HOME=/opt/soft/scala
export SPARK_HOME=/opt/soft/spark
export HADOOP_HOME=/opt/soft/hadoop
export HADOOP_CONF_DIR=/opt/soft/hadoop/etc/hadoop
export SPARK_MASTER_IP=hadoop100
export SPARK_EXECUTOR_MEMORY=1G
高可用的话,需要设置工作节点(添加对应的主机名),我这里是伪分布式所以只是默认的localhost
四、启动Spark
spark-shell
五、运行程序
WorldCount
先在内存中定义好
【注意:sc指的是SparkContext,parallelize用来创建RDD(弹性分布式数据集)】
val rdd2 = sc.parallelize(Array("hello java","hello scala","hello spark","spark is based scala"))
第一种方式:map+reduceByKey
rdd2.flatMap(_.split(" ")).map(x=>(x,1)).reduceByKey(_+_).collect
第二种方式:map+groupByKey
rdd2.flatMap(_.split(" ")).map(x=>(x,1)).groupByKey().map(x=>(x._1,x._2.size)).collect
第三种方式:countByValue
rdd2.flatMap(_.split(" ")).countByValue().foreach(println)
以上是关于Spark的安装与配置的主要内容,如果未能解决你的问题,请参考以下文章
在这个 spark 代码片段中 ordering.by 是啥意思?