如何从命令行访问 Apache PySpark?

Posted

技术标签:

【中文标题】如何从命令行访问 Apache PySpark?【英文标题】:How to access Apache PySpark from command line? 【发布时间】:2019-10-03 19:34:05 【问题描述】:

我正在使用 Jupyter 笔记本参加有关 Apache PySpark 的在线课程。为了轻松打开 Jupyter 笔记本,他们让我将这些代码行输入到我的 bash 配置文件中(我使用的是 MAC OS):

export SPARK_HOME="(INSERTED MY SPARK DIRECTORY)"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

我对 Linux 不太熟悉,课程也没有解释这些代码行的作用。在我这样做之前,我可以通过命令行输入“pyspark”来访问 PySpark。但是现在当我输入“pyspark”时,它会打开一个 jupyter 笔记本。现在我不知道如何从命令行访问它。这段代码有什么作用以及如何访问命令行 pyspark?

【问题讨论】:

【参考方案1】:

您是否使用本地安装的 Pyspark?

您可以使用https://github.com/minrk/findspark

使用 Anaconda 安装 findspark

首先,你添加这两行,它就能找到pyspark。

import findspark
findspark.init()

import pyspark
sc = pyspark.SparkContext(appName="myAppName")

【讨论】:

是的,我已经在 Anaconda 上安装了 PySpark。所以我可以使用 Anaconda 安装 findspark,然后在终端中输入前 2 行,它会将我放入 Pyspark shell?

以上是关于如何从命令行访问 Apache PySpark?的主要内容,如果未能解决你的问题,请参考以下文章

在 Hive-S3 表的情况下,pyspark 命令行中的错误

重命名 Pyspark Dataframe 中的未命名列

如何在 Swift 中访问命令行参数?

如何从命令行界面检查 Apache Phoenix 的版本?

TortoiseSVN 从命令行

如何在 Apache Spark (PySpark 1.4.1) 中可视化/绘制决策树?