无法安装 pyspark
Posted
技术标签:
【中文标题】无法安装 pyspark【英文标题】:unable to install pyspark 【发布时间】:2019-01-01 04:11:17 【问题描述】:我正在尝试这样安装 pyspark:
python setup.py install
我收到此错误:
Could not import pypandoc - required to package PySpark
pypandoc 已经安装
任何想法如何安装 pyspark?
【问题讨论】:
【参考方案1】:尝试使用带有pip3 install pypandoc
的python3 安装pypandoc。
【讨论】:
【参考方案2】:从 2.2 版开始,您可以使用 pip 直接安装 pyspark
pip install pyspark
【讨论】:
【参考方案3】:我遇到了同样的问题并解决了如下 在安装 pyspark 之前安装 pypandoc
pip install pypandoc
pip install pyspark
【讨论】:
这对我有用:Python 3.7.3、pip 20.1.1、Windows 10.0.17134 Build 17134,以及在 Windows Powershell 中运行命令。 在我的情况下,我安装了 Python3.8(Ubuntu 20.04)并运行pip3 install pypandoc
(在运行 sudo apt install python3-pip
之后)解决了问题【参考方案4】:
2018版-
在 Windows 10 上安装 PYSPARK
JUPYTER-NOTEBOOK
和 ANACONDA NAVIGATOR
。
第 1 步
下载包
1) spark-2.2.0-bin-hadoop2.7.tgz Download
2) Java JDK 8 版本Download
3) Anaconda v 5.2 Download
4) scala-2.12.6.msi Download
5) hadoop v2.7.1 Download
第 2 步
在C:/驱动器中创建SPARK文件夹并解压Hadoop
、spark
和
使用 scala-2.12.6.msi 在同一目录中安装 Scala
。目录结构应该是
It will look like this
注意:在安装 SCALA 时,指定 C:/Spark 文件夹
第 3 步
现在设置windows环境变量:
HADOOP_HOME=C:\spark\hadoop
JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151
SCALA_HOME=C:\spark\scala\bin
SPARK_HOME=C:\spark\spark\bin
PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe
PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe
PYSPARK_DRIVER_PYTHON_OPTS=notebook
现在选择火花路径:
点击编辑并添加新的
将“C:\spark\spark\bin”添加到变量“Path”窗口
第 4 步
创建要存储 Jupyter-Notebook 输出和文件的文件夹 然后打开 Anaconda 命令提示符和 cd 文件夹名称 然后输入 Pyspark你的浏览器会弹出 Juypter localhost
第 5 步
检查PySpark
是否正常工作!
输入简单的代码并运行它
from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)
【讨论】:
【参考方案5】:如果您使用的是窗口,请按照以下步骤操作:
1)在电脑上安装Jdk链接:https://www.oracle.com/technetwork/java/javase/downloads/index.html
2) 设置环境变量$JAVA_HOME= /path/where/you/installed/jdk
而不是在PATH=%JAVA_HOME/bin
中添加路径
3) 从链接下载 spark:- https://spark.apache.org/downloads.html 此文件以 Zip 格式解压文件,文件名类似 spark-2.3.1-bin-hadoop2.7.tgz ,将此文件夹移动到 C 目录。并设置环境变量
SPARK_HOME=/path/of the /spark
4) 从以下链接下载 scala ide :- http://scala-ide.org/
解压文件并将Eclipse文件夹复制到C:目录
5) 现在打开 cmd 并写入 spark-shell
它将为您打开 scala shell。
【讨论】:
【参考方案6】:为 jupyter notebook 安装 PySpark API 的步骤:
去这个网站https://spark.apache.org/downloads.html下载最新的spark。该文件将以 .tgz 格式下载。 在要安装 PySpark 的目录中提取此 tgz 文件。
解压 tgz 文件后,您需要下载 hadoop,因为 Apache spark 需要 Hadoop, 所以从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop, 将下载一个文件 - 'winutils.exe'。将此 exe 文件复制到 spark 的“bin/”目录中 (spark-2.2.0-bin-hadoop2.7/bin)
如果你安装了 anaconda,C:\Users\ 中会有 .condarc 文件,打开它,将 ssl_verify 从 true 更改为 false。 这将帮助您直接从提示符安装 python 库。(如果您的网络受限)
打开 anaconda 提示并输入“conda install findspark”以安装 findspark python 模块。如果无法安装,请转到此链接 https://github.com/minrk/findspark 并下载 ZIP,解压缩并打开 anaconda 提示符并转到此解压缩路径并运行“python setup.py install”。
打开这台电脑>>属性>>高级系统设置(你需要有管理员权限)。点击环境变量,然后 添加新的用户环境变量。
创建 4 个用户变量并将 spark 路径添加到“PATH”系统变量后,打开 jupyter notebook 并运行以下代码:
import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext
from pyspark import SparkContext
sc = SparkContext("local", "First App")
sqlContext = SQLContext(sc)
如果没有报错,说明安装成功。
【讨论】:
以上是关于无法安装 pyspark的主要内容,如果未能解决你的问题,请参考以下文章