Pyspark / pyspark 内核在 jupyter notebook 中不起作用

Posted

技术标签:

【中文标题】Pyspark / pyspark 内核在 jupyter notebook 中不起作用【英文标题】:Pyspark / pyspark kernels not working in jupyter notebook 【发布时间】:2019-03-03 04:41:02 【问题描述】:

这里是安装的内核:

 $jupyter-kernelspec list


Available kernels:
  apache_toree_scala    /usr/local/share/jupyter/kernels/apache_toree_scala
  apache_toree_sql      /usr/local/share/jupyter/kernels/apache_toree_sql
  pyspark3kernel        /usr/local/share/jupyter/kernels/pyspark3kernel
  pysparkkernel         /usr/local/share/jupyter/kernels/pysparkkernel
  python3               /usr/local/share/jupyter/kernels/python3
  sparkkernel           /usr/local/share/jupyter/kernels/sparkkernel
  sparkrkernel          /usr/local/share/jupyter/kernels/sparkrkernel

创建了一个新笔记本,但失败了

The code failed because of a fatal error:
    Error sending http request and maximum retry encountered..

jupyter 控制台中没有 [错误] 消息

【问题讨论】:

【参考方案1】:

如果您使用 magicspark 连接您的 Jupiter notebook,您还应该启动 Livy,这是 magicspark 用来与您的 Spark 集群通信的 API 服务。

    从Apache Livy下载Livy并解压 检查SPARK_HOME环境是否设置,如果没有设置到你的Spark安装目录 在 shell/命令行中通过<livy_home>/bin/livy-server 运行 Livy 服务器

现在回到你的笔记本,你应该可以在单元格中运行 spark 代码了。

【讨论】:

谢谢小费!我现在没有使用 jupyter notebook,但我会回来(可能在八月)。现在会投票,并考虑到那时根据验证进行奖励。

以上是关于Pyspark / pyspark 内核在 jupyter notebook 中不起作用的主要内容,如果未能解决你的问题,请参考以下文章

启动 jupyter-pyspark 内核时生成损坏的文件

使用 Jupyter Notebook 为 PySpark 内核设置 spark.app.name

如何在 pyspark 数据框列上拟合内核密度估计并将其用于创建具有估计的新列

熊猫平行适用于考拉(pyspark)

Jupyter Notebook 中的 PySpark 配置

PySpark worker在安装时无法导入包