无法安装 pyspark

Posted 2023-02-24

技术标签:

【中文标题】无法安装 pyspark【英文标题】：unable to install pyspark 【发布时间】：2019-01-01 04:11:17 【问题描述】：

我正在尝试这样安装 pyspark：

python setup.py install

我收到此错误：

Could not import pypandoc - required to package PySpark

pypandoc 已经安装

任何想法如何安装 pyspark？

【问题讨论】：

【参考方案1】：

尝试使用带有pip3 install pypandoc 的python3 安装pypandoc。

【讨论】：

【参考方案2】：

从 2.2 版开始，您可以使用 pip 直接安装 pyspark

pip install pyspark

【讨论】：

【参考方案3】：

我遇到了同样的问题并解决了如下在安装 pyspark 之前安装 pypandoc

pip install pypandoc
pip install pyspark

【讨论】：

这对我有用：Python 3.7.3、pip 20.1.1、Windows 10.0.17134 Build 17134，以及在 Windows Powershell 中运行命令。在我的情况下，我安装了 Python3.8（Ubuntu 20.04）并运行 pip3 install pypandoc（在运行 sudo apt install python3-pip 之后）解决了问题【参考方案4】：

2018版-

在 Windows 10 上安装 PYSPARK JUPYTER-NOTEBOOK 和 ANACONDA NAVIGATOR。

第 1 步

下载包

1) spark-2.2.0-bin-hadoop2.7.tgz Download

2) Java JDK 8 版本Download

3) Anaconda v 5.2 Download

4) scala-2.12.6.msi Download

5) hadoop v2.7.1 Download

第 2 步

在C:/驱动器中创建SPARK文件夹并解压Hadoop、spark和使用 scala-2.12.6.msi 在同一目录中安装 Scala。目录结构应该是 It will look like this

注意：在安装 SCALA 时，指定 C:/Spark 文件夹

第 3 步

现在设置windows环境变量：

HADOOP_HOME=C:\spark\hadoop

JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151

SCALA_HOME=C:\spark\scala\bin

SPARK_HOME=C:\spark\spark\bin

PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe

PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe

PYSPARK_DRIVER_PYTHON_OPTS=notebook

现在选择火花路径：

点击编辑并添加新的

将“C:\spark\spark\bin”添加到变量“Path”窗口

第 4 步

创建要存储 Jupyter-Notebook 输出和文件的文件夹然后打开 Anaconda 命令提示符和 cd 文件夹名称 然后输入 Pyspark

你的浏览器会弹出 Juypter localhost

第 5 步

检查PySpark 是否正常工作！

输入简单的代码并运行它

from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)

【讨论】：

【参考方案5】：

如果您使用的是窗口，请按照以下步骤操作： 1）在电脑上安装Jdk链接：https://www.oracle.com/technetwork/java/javase/downloads/index.html

2) 设置环境变量$JAVA_HOME= /path/where/you/installed/jdk 而不是在PATH=%JAVA_HOME/bin中添加路径

3) 从链接下载 spark:- https://spark.apache.org/downloads.html 此文件以 Zip 格式解压文件，文件名类似 spark-2.3.1-bin-hadoop2.7.tgz ，将此文件夹移动到 C 目录。并设置环境变量

SPARK_HOME=/path/of the /spark

4) 从以下链接下载 scala ide :- http://scala-ide.org/ 解压文件并将Eclipse文件夹复制到C:目录

5) 现在打开 cmd 并写入 spark-shell 它将为您打开 scala shell。

【讨论】：

【参考方案6】：

为 jupyter notebook 安装 PySpark API 的步骤：

去这个网站https://spark.apache.org/downloads.html下载最新的spark。该文件将以 .tgz 格式下载。在要安装 PySpark 的目录中提取此 tgz 文件。

解压 tgz 文件后，您需要下载 hadoop，因为 Apache spark 需要 Hadoop，所以从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop，将下载一个文件 - 'winutils.exe'。将此 exe 文件复制到 spark 的“bin/”目录中 (spark-2.2.0-bin-hadoop2.7/bin)

如果你安装了 anaconda，C:\Users\ 中会有 .condarc 文件，打开它，将 ssl_verify 从 true 更改为 false。这将帮助您直接从提示符安装 python 库。（如果您的网络受限）

打开 anaconda 提示并输入“conda install findspark”以安装 findspark python 模块。如果无法安装，请转到此链接 https://github.com/minrk/findspark 并下载 ZIP，解压缩并打开 anaconda 提示符并转到此解压缩路径并运行“python setup.py install”。

打开这台电脑>>属性>>高级系统设置（你需要有管理员权限）。点击环境变量，然后添加新的用户环境变量。

创建 4 个用户变量并将 spark 路径添加到“PATH”系统变量后，打开 jupyter notebook 并运行以下代码：

import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext
from pyspark import SparkContext    

sc = SparkContext("local", "First App")
sqlContext = SQLContext(sc)

如果没有报错，说明安装成功。

【讨论】：

以上是关于无法安装 pyspark的主要内容，如果未能解决你的问题，请参考以下文章