pyspark 安装配置linux && win
Posted 陌上花开
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark 安装配置linux && win相关的知识,希望对你有一定的参考价值。
一、windows 安装 1、下载spark spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 环境变量 set SPARK_HOME=d:spark2.3.1 set PATH=%SPARK_HOME%in;%PATH% 3、安装python的pyspark模块 pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/ 4、下载安装hadoop 或者 组件 1)下载hadoop软件包,并配置环境变量 set HADOOP_HOME=d:hadoop set PATH=%HADOOP_HOME%in;%PATH% 2)下载hadoop-common-2.2.0-bin-master.zip(自己百度) 并配置环境变量 下载后是文件名是hadoop-common-2.2.0-bin-master.zip,随便解压到一个目录,设置HADOOP_HOME环境变量,指向 d:hadoop (解压后的下载文件), 并将HADOOP_HOME加到系统变量PATH中 set HADOOP_HOME=d:hadoop set PATH=%HADOOP_HOME%in;%PATH% 二、linux 环境 1、下载spark spark-2.3.1-bin-hadoop2.7.tgz tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 环境变量 vi ~/.bash_profile #将以下代码添加到文件中 export SPARK_HOME=/tools/spark2.3.1 export PATH=$SPARK_HOME/bin:$PATH export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH 3、安装python的pyspark模块 pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple/
注释:
1、如果想在python项目中使用spark 功能,python开发环境除了安装pyspark 模块外,还需要同时安装spark软件包才能正常使用。
2、linux 环境只需要安装jdk、spark、pyspark(python模块)即可;windows 环境还需要额外安装hadoop组件,否则运行报错。
以上是关于pyspark 安装配置linux && win的主要内容,如果未能解决你的问题,请参考以下文章
如何在windows下安装配置pyspark notebook