Win7安装PySpark

Posted 2021-04-27 鲍教授

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Win7安装PySpark相关的知识，希望对你有一定的参考价值。

不上spark已经不能解决问题了，根据网上的资料以及自己的实践，确认如下方法是可行的，供参考。

一、概要

Spark的框架是用Scala编写的，而Scala是一种运行在Java虚拟机上实现和Java类库互联互通的面向对象及函数式编程语言，PySpark使用Python开发所以需要使用Py4J（用Python和Java编写的库，通过Py4J，Python程序能够动态访问Java虚拟机中的Java对象，Java程序也能够回调Python对象。），最后需要Hadoop（Spark的版本需要与Hadoop版本相匹配）。

Java JDK: jdk-8u261-windows-x64，需要注册账号

https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

Scala: scala-2.12.8，网络问题可能下载很慢，尝试手机热点很快，下载windows安装版本

https://www.scala-lang.org/download/2.12.8.html

Spark：spark-2.4.7-bin-hadoop2.7

http://spark.apache.org/downloads.html

Hadoop: hadoop-2.7.7.tar

http://hadoop.apache.org/releases.html

hadooponwindows-master，能支持在windows运行hadoop的工具

https://pan.baidu.com/s/1o7YTlJO?errmsg=Auth+Login+Sucess&errno=0&ssnerror=0&

winutils，在window系统上安装hadoop时所需要的winutils文件

https://github.com/cdarlint/winutils

三、安装

3.1 JDK安装

安装没有难度，安装完成后配置环境变量，计算机右键-属性-高级系统设置-环境变量-系统变量，新建如下系统变量

新建完成后在path变量中添加：%JAVA_HOME%\bin

配置好后开启cmd窗口，验证是否安装成功。

Win7安装PySpark

3.2 Scala安装

安装没有难度，安装完成后配置环境变量，计算机右键-属性-高级系统设置-环境变量-系统变量，新建如下系统变量

Win7安装PySpark

新建完成后在path变量中添加：%SCALA_HOME%

配置好后开启cmd窗口，验证是否安装成功。

Win7安装PySpark

3.3 Spark安装

解压后直接配置环境变量，不需要安装。特别注意：Spark解压文件放置的路径不能有空格，否则报错！

新建完成后在path变量中添加：%SPARK_HOME%\bin

Win7安装PySpark

3.4 Hadoop安装

解压后直接配置环境变量，不需要安装。

Win7安装PySpark

建完成后在path变量中添加：%HADOOP_HOME%\bin 把hadooponwindows-master的bin覆盖hadoop-2.7.7的bin

将winutils.exe文件放到Hadoop的bin目录下（我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin），然后以管理员的身份打开cmd，然后通过cd命令进入到Hadoop的bin目录下，然后执行以下命令：winutils.exe chmod 777 c:\tmp\Hive

需要提前新建c:\tmp\Hive文件夹

3.5 Python安装

Anaconda安装python3.7

将spark所在目录下（比如我的D:\IT\bigdata\soft\spark-2.4.3-bin-hadoop2.7\python）的pyspark文件夹拷贝到python文件夹下（我的是D:\IT\python\Python\Lib\site-packages）

安装Py4J pip install py4j

3.6 启动PySpark

Win7安装PySpark