python / pyspark 版本的 Jupyter 问题

Posted

技术标签:

【中文标题】python / pyspark 版本的 Jupyter 问题【英文标题】:Jupyter issue with python / pyspark versions 【发布时间】:2016-06-07 10:09:32 【问题描述】:

我正在使用 pyspark 内核运行 Jupyter 笔记本。我收到以下错误。如何强制 Jupyter(最好是在 Jupyter 内部)使用正确的驱动程序?

worker 中的 Python 2.6 版本与驱动程序 2.7 中的不同,PySpark 无法使用不同的次要版本运行

谢谢

哈尼

【问题讨论】:

【参考方案1】:

这可能是您的 pyspark kernel.json 配置中的问题。例如我的 pyspark 内核位于:

/usr/local/share/jupyter/kernels/pyspark/kernel.json

并包含:


 "display_name": "pySpark (Spark 1.6.0)",
 "language": "python",
 "argv": [
  "/usr/local/bin/python2.7",
  "-m",
  "ipykernel",
  "-f",
  "connection_file"
 ],
 "env": 
  "PYSPARK_PYTHON": "/usr/local/bin/python2.7",
  "SPARK_HOME": "/usr/lib/spark",
  "PYTHONPATH": "/usr/lib/spark/python/lib/py4j-0.9-src.zip:/usr/lib/spark/python/",
  "PYTHONSTARTUP": "/usr/lib/spark/python/pyspark/shell.py",
  "PYSPARK_SUBMIT_ARGS": "--master yarn-client pyspark-shell"
 

非常重要在两个地方(argvPYSPARK_PYTHON)都指向相同的 python 版本。

希望有帮助!

【讨论】:

以上是关于python / pyspark 版本的 Jupyter 问题的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark - 工作人员和驱动程序中的不同 Python 版本

Spark实践|如何让CDSW的PySpark自动适配Python版本

如何在 apache toree pyspark notebook 中更改 python 版本?

Pyspark在driver(python3.5)和worker(python2.7)中有不同的版本

由于 python 版本,运行 PySpark DataProc Job 时出错

在 spark 版本 2.2.0 中使用 python(pyspark) 从 mqtt 获取数据流