从PyCharm连接到运行Spark-Session

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从PyCharm连接到运行Spark-Session相关的知识,希望对你有一定的参考价值。

我目前正在尝试设置我的火花环境,并想知道什么是最佳实践。我想在Pycharm中编写我的代码并从那里执行它。如何从那里连接已经运行Spark-Session的本地(在我的Mac上)?到目前为止,我的想法是在终端中启动一个pyspark-shell,如果我在Pycharm中运行我的代码,它应该连接到运行Spark-Session的那个。

怎么做?

提前致谢!

答案

您可以尝试在python中创建一个spark shell,使用:

import os, sys
os.environ['SPARK_HOME']="/home/spark-2.4.0-bin-hadoop2.7" #path to spark
sys.path.append(os.path.join(os.environ['SPARK_HOME'], 'python') )
sys.path.append(os.path.join(os.environ['SPARK_HOME'], 'python/lib/py4j-0.10.7-src.zip'))

import pyspark
spark = pyspark.sql.SparkSession.builder.appName("pysaprk_python").getOrCreate()

print (spark.version, spark.sparkContext.master)

以上是关于从PyCharm连接到运行Spark-Session的主要内容,如果未能解决你的问题,请参考以下文章

Pycharm 无法连接到控制台进程

PyCharm:通过 SSH 配置多跳远程解释器

使用 PyCharm 通过 JDBC 连接到 AWS Athena - fetchSize 问题

Pycharm - 无法连接到控制台进程

如何将 PyCharm 连接到 Heroku postgres 数据库

Pycharm 无法连接到控制台进程退出代码 -1 远程解释器