Apache Spark:如何在Python 3中使用pyspark
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Apache Spark:如何在Python 3中使用pyspark相关的知识,希望对你有一定的参考价值。
我从GH开发大师那里构建了Spark 1.4,并且构建很顺利。但是当我做一个bin/pyspark
时,我得到了Python 2.7.9版本。我怎么能改变这个?
只需设置环境变量:
export PYSPARK_PYTHON=python3
如果您希望将其作为永久性更改,请将此行添加到pyspark脚本中。
PYSPARK_PYTHON=python3
./bin/pyspark
如果你想在IPython Notebook中运行,请写:
PYSPARK_PYTHON=python3
PYSPARK_DRIVER_PYTHON=ipython
PYSPARK_DRIVER_PYTHON_OPTS="notebook"
./bin/pyspark
如果无法访问python3
,则需要将路径传递给它。
请记住,qazxsw poi已经过时了。幸运的是,qazxsw poi。
1,编辑个人资料:current documentation (as of 1.4.1)
2,将代码添加到文件中:it has been patched
3,执行命令:vim ~/.profile
4,export PYSPARK_PYTHON=python3
看看文件。 shebang行可能指向'env'二进制文件,它在路径中搜索第一个兼容的可执行文件。
你可以将python改为python3。更改env直接使用硬编码的python3二进制文件。或者直接用python3执行二进制文件并省略shebang行。
对于Jupyter Notebook,从命令行编辑如下所示的source ~/.profile
文件
./bin/pyspark
转到文件的底部并复制粘贴这些行
spark-env.sh
然后,只需运行以下命令即可在笔记本中启动pyspark
$ vi $SPARK_HOME/conf/spark-env.sh
以上是关于Apache Spark:如何在Python 3中使用pyspark的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Apache Spark (pyspark) 中使用自定义类?
如何使用 Azure Synapse Analytics 将自定义 Python 库导入到 Apache Spark 池中?