Apache Spark:如何在Python 3中使用pyspark

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Apache Spark:如何在Python 3中使用pyspark相关的知识,希望对你有一定的参考价值。

我从GH开发大师那里构建了Spark 1.4,并且构建很顺利。但是当我做一个bin/pyspark时,我得到了Python 2.7.9版本。我怎么能改变这个?

答案

只需设置环境变量:

export PYSPARK_PYTHON=python3

如果您希望将其作为永久性更改,请将此行添加到pyspark脚本中。

另一答案
PYSPARK_PYTHON=python3 
./bin/pyspark

如果你想在IPython Notebook中运行,请写:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

如果无法访问python3,则需要将路径传递给它。

请记住,qazxsw poi已经过时了。幸运的是,qazxsw poi。

另一答案

1,编辑个人资料:current documentation (as of 1.4.1)

2,将代码添加到文件中:it has been patched

3,执行命令:vim ~/.profile

4,export PYSPARK_PYTHON=python3

另一答案

看看文件。 shebang行可能指向'env'二进制文件,它在路径中搜索第一个兼容的可执行文件。

你可以将python改为python3。更改env直接使用硬编码的python3二进制文件。或者直接用python3执行二进制文件并省略shebang行。

另一答案

对于Jupyter Notebook,从命令行编辑如下所示的source ~/.profile文件

./bin/pyspark

转到文件的底部并复制粘贴这些行

spark-env.sh

然后,只需运行以下命令即可在笔记本中启动pyspark

$ vi $SPARK_HOME/conf/spark-env.sh

以上是关于Apache Spark:如何在Python 3中使用pyspark的主要内容,如果未能解决你的问题,请参考以下文章