Spark 在本地机器而不是独立集群中运行

Posted

技术标签:

【中文标题】Spark 在本地机器而不是独立集群中运行【英文标题】:Spark running in local machine instead of standalone cluster 【发布时间】:2020-02-07 17:21:11 【问题描述】:

我在 ec2 上创建了一个 spark 集群,之后,我在主节点上安装了 Jupyter 并启动了 jupyter,之后我使用

创建了 sparkcontext
findspark.init(spark_home='/home/ubuntu/spark')
import pyspark
from functools import partial
sc = pyspark.SparkContext(appName="Pi")

当我尝试运行任何作业时,spark 仅使用主机的核心,所有从机都在运行并连接到主机,但我仍然无法使用任何从机的核心,任何人请帮忙。

【问题讨论】:

您需要将主网址设置为spark://... 在创建 sparkcontext 时? 是的,至少是必要的 很好,我将其发布为寻求更广泛帮助的答案 【参考方案1】:

创建SparkContext时需要将主网址设置为spark://...

【讨论】:

以上是关于Spark 在本地机器而不是独立集群中运行的主要内容,如果未能解决你的问题,请参考以下文章

Spark集群管理器介绍

Jupyter + EMR + Spark - 从本地机器上的 Jupyter notebook 连接到 EMR 集群

SparkSession 在本地独立集群上花费的时间太长

如何在远程 Spark 集群上运行本地 Python 脚本?

Spark 运行的4种模式

如何在 Windows 机器上设置 Spark 集群?