如何从命令行访问 Apache PySpark?
Posted
技术标签:
【中文标题】如何从命令行访问 Apache PySpark?【英文标题】:How to access Apache PySpark from command line? 【发布时间】:2019-10-03 19:34:05 【问题描述】:我正在使用 Jupyter 笔记本参加有关 Apache PySpark 的在线课程。为了轻松打开 Jupyter 笔记本,他们让我将这些代码行输入到我的 bash 配置文件中(我使用的是 MAC OS):
export SPARK_HOME="(INSERTED MY SPARK DIRECTORY)"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
我对 Linux 不太熟悉,课程也没有解释这些代码行的作用。在我这样做之前,我可以通过命令行输入“pyspark”来访问 PySpark。但是现在当我输入“pyspark”时,它会打开一个 jupyter 笔记本。现在我不知道如何从命令行访问它。这段代码有什么作用以及如何访问命令行 pyspark?
【问题讨论】:
【参考方案1】:您是否使用本地安装的 Pyspark?
您可以使用https://github.com/minrk/findspark
使用 Anaconda 安装 findspark
。
首先,你添加这两行,它就能找到pyspark。
import findspark
findspark.init()
import pyspark
sc = pyspark.SparkContext(appName="myAppName")
【讨论】:
是的,我已经在 Anaconda 上安装了 PySpark。所以我可以使用 Anaconda 安装 findspark,然后在终端中输入前 2 行,它会将我放入 Pyspark shell?以上是关于如何从命令行访问 Apache PySpark?的主要内容,如果未能解决你的问题,请参考以下文章
在 Hive-S3 表的情况下,pyspark 命令行中的错误