使用纱线资源管理器的困惑

Posted

技术标签:

【中文标题】使用纱线资源管理器的困惑【英文标题】:Confusion using Yarn Resource Manager 【发布时间】:2020-01-26 22:42:38 【问题描述】:

我正在尝试在 Amazon AWS 中运行一个简单的 pyspark 作业,它被配置为通过 spark-default.conf 文件使用 Yarn。我对 Yarn 部署代码有点困惑。

我看到一些示例代码如下:

conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('spark-yarn')
sc = SparkContext(conf=conf)

我不确定在这种情况下我应该如何执行 spark 作业,当指定 'yarn-client' 时。我通常这样做:

$spark-submit --deploy-mode client spark-job.py

但是有什么区别

$spark-submit --deploy-mode client spark-job.py

$spark-submit spark-job.py

如何通过查看 spark 日志来识别作业是在客户端模式还是集群或 yarn-client 中运行?

【问题讨论】:

【参考方案1】:

默认--deploy-mode 是客户端。 所以下面的 spark-submit 都将在客户端模式下运行。

$spark-submit --deploy-mode client spark-job.py

$spark-submit spark-job.py

如果你指定--master yarn,现在它将以客户端模式在yarn中运行。

注意: --master 集群的主 URL(例如,对于独立集群 spark://23.195.26.187:7077) 模式类型 *独立 *纱 *金币 *Kubernetes

--deploy-mode:是在工作节点(集群)上部署你的驱动程序还是在本地作为外部客户端(客户端)(默认:客户端) *客户 *集群

【讨论】:

以上是关于使用纱线资源管理器的困惑的主要内容,如果未能解决你的问题,请参考以下文章

我想知道(公式)如何计算名称节点、纱线和资源管理器的 RAM、CPU 和磁盘内存

无法将包管理器更改为纱线

Android SDK 管理器的 GUI 消失了吗?

前端包管理器的依赖管理原理

颜色选择器的困惑

如何在桌面建立资源管理器的快捷方式图标