无法安装 pyspark

Posted

技术标签:

【中文标题】无法安装 pyspark【英文标题】:unable to install pyspark 【发布时间】:2019-01-01 04:11:17 【问题描述】:

我正在尝试这样安装 pyspark:

python setup.py install

我收到此错误:

Could not import pypandoc - required to package PySpark

pypandoc 已经安装

任何想法如何安装 pyspark?

【问题讨论】:

【参考方案1】:

尝试使用带有pip3 install pypandoc 的python3 安装pypandoc。

【讨论】:

【参考方案2】:

从 2.2 版开始,您可以使用 pip 直接安装 pyspark

pip install pyspark

【讨论】:

【参考方案3】:

我遇到了同样的问题并解决了如下 在安装 pyspark 之前安装 pypandoc

pip install pypandoc
pip install pyspark

【讨论】:

这对我有用:Python 3.7.3、pip 20.1.1、Windows 10.0.17134 Build 17134,以及在 Windows Powershell 中运行命令。 在我的情况下,我安装了 Python3.8(Ubuntu 20.04)并运行 pip3 install pypandoc(在运行 sudo apt install python3-pip 之后)解决了问题【参考方案4】:

2018版-

在 Windows 10 上安装 PYSPARK JUPYTER-NOTEBOOKANACONDA NAVIGATOR

第 1 步

下载包

1) spark-2.2.0-bin-hadoop2.7.tgz Download

2) Java JDK 8 版本Download

3) Anaconda v 5.2 Download

4) scala-2.12.6.msi Download

5) hadoop v2.7.1 Download

第 2 步

C:/驱动器中创建SPARK文件夹并解压Hadoopspark和 使用 scala-2.12.6.msi 在同一目录中安装 Scala。目录结构应该是 It will look like this

注意:在安装 SCALA 时,指定 C:/Spark 文件夹

第 3 步

现在设置windows环境变量:

    HADOOP_HOME=C:\spark\hadoop

    JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151

    SCALA_HOME=C:\spark\scala\bin

    SPARK_HOME=C:\spark\spark\bin

    PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe

    PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe

    PYSPARK_DRIVER_PYTHON_OPTS=notebook

    现在选择火花路径

    点击编辑并添加新的

    将“C:\spark\spark\bin”添加到变量“Path”窗口

第 4 步

创建要存储 Jupyter-Notebook 输出和文件的文件夹 然后打开 Anaconda 命令提示符和 cd 文件夹名称 然后输入 Pyspark

你的浏览器会弹出 Juypter localhost

第 5 步

检查PySpark 是否正常工作!

输入简单的代码并运行它

from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)

【讨论】:

【参考方案5】:

如果您使用的是窗口,请按照以下步骤操作: 1)在电脑上安装Jdk链接:https://www.oracle.com/technetwork/java/javase/downloads/index.html

2) 设置环境变量$JAVA_HOME= /path/where/you/installed/jdk 而不是在PATH=%JAVA_HOME/bin中添加路径

3) 从链接下载 spark:- https://spark.apache.org/downloads.html 此文件以 Zip 格式解压文件,文件名类似 spark-2.3.1-bin-hadoop2.7.tgz ,将此文件夹移动到 C 目录。并设置环境变量

SPARK_HOME=/path/of the /spark 

4) 从以下链接下载 scala ide :- http://scala-ide.org/ 解压文件并将Eclipse文件夹复制到C:目录

5) 现在打开 cmd 并写入 spark-shell 它将为您打开 scala shell。

【讨论】:

【参考方案6】:

为 jupyter notebook 安装 PySpark API 的步骤:

    去这个网站https://spark.apache.org/downloads.html下载最新的spark。该文件将以 .tgz 格式下载。 在要安装 PySpark 的目录中提取此 tgz 文件。

    解压 tgz 文件后,您需要下载 hadoop,因为 Apache spark 需要 Hadoop, 所以从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop, 将下载一个文件 - 'winutils.exe'。将此 exe 文件复制到 spark 的“bin/”目录中 (spark-2.2.0-bin-hadoop2.7/bin)

    如果你安装了 anaconda,C:\Users\ 中会有 .condarc 文件,打开它,将 ssl_verify 从 true 更改为 false。 这将帮助您直接从提示符安装 python 库。(如果您的网络受限)

    打开 anaconda 提示并输入“conda install findspark”以安装 findspark python 模块。如果无法安装,请转到此链接 https://github.com/minrk/findspark 并下载 ZIP,解压缩并打开 anaconda 提示符并转到此解压缩路径并运行“python setup.py install”。

    打开这台电脑>>属性>>高级系统设置(你需要有管理员权限)。点击环境变量,然后 添加新的用户环境变量。

    创建 4 个用户变量并将 spark 路径添加到“PATH”系统变量后,打开 jupyter notebook 并运行以下代码:

    import findspark
    findspark.init()
    import pyspark
    from pyspark.sql import SQLContext
    from pyspark import SparkContext    
    
    sc = SparkContext("local", "First App")
    sqlContext = SQLContext(sc)
    

    如果没有报错,说明安装成功。

【讨论】:

以上是关于无法安装 pyspark的主要内容,如果未能解决你的问题,请参考以下文章

SPARK 安装后无法在 MAC 中运行 pyspark

PySpark 工作人员在安装包时无法导入包

安装 Spark 问题。无法使用 pyspark 打开 IPython Notebook

PySpark worker在安装时无法导入包

pyspark 无法启动

无法设置Pyspark