Apache Spark:如何在Python 3中使用pyspark

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Apache Spark:如何在Python 3中使用pyspark相关的知识,希望对你有一定的参考价值。

我从GH开发大师那里构建了Spark 1.4,并且构建很顺利。但是当我做一个bin/pyspark时,我得到了Python 2.7.9版本。我怎么能改变这个?

答案

只需设置环境变量:

export PYSPARK_PYTHON=python3

如果您希望将其作为永久性更改,请将此行添加到pyspark脚本中。

另一答案
PYSPARK_PYTHON=python3 
./bin/pyspark

如果你想在IPython Notebook中运行,请写:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

如果无法访问python3,则需要将路径传递给它。

请记住,qazxsw poi已经过时了。幸运的是,qazxsw poi。

另一答案

1,编辑个人资料:current documentation (as of 1.4.1)

2,将代码添加到文件中:it has been patched

3,执行命令:vim ~/.profile

4,export PYSPARK_PYTHON=python3

另一答案

看看文件。 shebang行可能指向'env'二进制文件,它在路径中搜索第一个兼容的可执行文件。

你可以将python改为python3。更改env直接使用硬编码的python3二进制文件。或者直接用python3执行二进制文件并省略shebang行。

另一答案

对于Jupyter Notebook,从命令行编辑如下所示的source ~/.profile文件

./bin/pyspark

转到文件的底部并复制粘贴这些行

spark-env.sh

然后,只需运行以下命令即可在笔记本中启动pyspark

$ vi $SPARK_HOME/conf/spark-env.sh

以上是关于Apache Spark:如何在Python 3中使用pyspark的主要内容,如果未能解决你的问题,请参考以下文章

Apache Spark 使用的 python 版本

Spark编程题

如何在 Apache Spark (pyspark) 中使用自定义类?

如何使用 Azure Synapse Analytics 将自定义 Python 库导入到 Apache Spark 池中?

Apache Spark Python UDF 失败

如何在 Databricks 上使用 Apache Spark / Python 将整数转换为日期