PySpark环境配置

Posted Maxi_0902

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PySpark环境配置相关的知识,希望对你有一定的参考价值。

首先,要知道PySpark是Spark为Python提供的API库,因此使用`pip install pyspark`下载pyspark不等于下载了spark。因此,配置pyspark环境,首先需要下载spark。

(1)linux下载spark的命令:

wget https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3.tgz

(2)spark运行环境需要java,因此需要下载java。

(3)下载好jdk和spark之后,需要在`.bashrc`中配置`JAVA_HOME`和`SPARK_HOME`:

export JAVA_HOME=/home/***/softwares/jdk1.8.0_241
export SPARK_HOME=/home/***/softwares/spark-3.3.1-bin-hadoop3

(4)配置成功。使用`pyspark`打开交互式环境。

以上是关于PySpark环境配置的主要内容,如果未能解决你的问题,请参考以下文章

Anaconda中配置Pyspark的Spark开发环境

Win10下配置安装PySpark和Hadoop环境

Win10下配置安装PySpark和Hadoop环境

pyspark+anaconda配置

一文速学-PySpark数据分析基础:Spark本地环境部署搭建

如何在windows下安装配置pyspark notebook