在 ec2 上启动 pyspark Ipython notebook

Posted

技术标签:

【中文标题】在 ec2 上启动 pyspark Ipython notebook【英文标题】:Launch pyspark Ipython notebook on ec2 【发布时间】:2016-12-28 20:09:53 【问题描述】:

我刚刚从 1.4 升级到 Spark 2.0,并从 github.com/amplab/spark-ec2/tree/branch-2.0 下载了 ec2 目录

要启动一些集群,我会转到我的 ec2 目录并运行以下命令:

./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>

./spark-ec2 -k <keypair> -i <key-file> login <cluster-name>

我已启动集群并已登录到 master,但我不知道如何启动 pyspark 笔记本。使用 Spark 1.4,我将运行命令

IPYTHON_OPTS="notebook --ip=0.0.0.0" /root/spark/bin/pyspark --executor-memory 4G --driver-memory 4G &

我的笔记本启动并运行良好,但使用 Spark 2.0 时没有 bin/pyspark 目录。有人可以帮忙吗?

【问题讨论】:

【参考方案1】:

根据来源cmets:

https://apache.googlesource.com/spark/+/master/bin/pyspark

在 Spark 2.0 中,IPYTHON 和 IPYTHON_OPTS 被删除,pyspark 失败 如果在用户环境中设置了任一选项,则启动。反而, 用户应设置 PYSPARK_DRIVER_PYTHON=ipython 以使用 IPython 并设置 PYSPARK_DRIVER_PYTHON_OPTS 在启动 Python 时传递选项 驱动程序(例如 PYSPARK_DRIVER_PYTHON_OPTS='notebook')。这支持 完全自定义 IPython 和 executor Python 可执行文件。

下面link会带你一步步来。除了升级到 Spark 2.0,您还应该升级到 Juypter Notebooks(以前称为 Ipython Notebooks)。

【讨论】:

这是否意味着我必须将行 export PYSPARK_DRIVER_PYTHON=ipython export PYSPARK_DRIVER_PYTHON_OPTS="notebook" 添加到我的 .bash_profile 中? 简短答案是的,但请参阅我编辑的答案,其中包含一个链接,以逐步指导您。拿走你需要的,忽略其余的。

以上是关于在 ec2 上启动 pyspark Ipython notebook的主要内容,如果未能解决你的问题,请参考以下文章

如何启动 pyspark 并进入 ipython shell

无法为 pyspark OSX 启动 Jupyter Notebook:IPYTHON 和 IPYTHON_OPTS 在 Spark 2.0+ 中被删除

pyspark - 错误仅出现在 IPython 中,但不在 vanila python 中

Pyspark 连接到 ipython 笔记本中的 Postgres 数据库

在 AWS EMR v4.0.0 上使用 Pyspark 配置 Ipython/Jupyter 笔记本

将本地 IPython 笔记本连接到气隙集群上的 Spark