使用纱线资源管理器的困惑
Posted
技术标签:
【中文标题】使用纱线资源管理器的困惑【英文标题】:Confusion using Yarn Resource Manager 【发布时间】:2020-01-26 22:42:38 【问题描述】:我正在尝试在 Amazon AWS 中运行一个简单的 pyspark 作业,它被配置为通过 spark-default.conf 文件使用 Yarn。我对 Yarn 部署代码有点困惑。
我看到一些示例代码如下:
conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('spark-yarn')
sc = SparkContext(conf=conf)
我不确定在这种情况下我应该如何执行 spark 作业,当指定 'yarn-client' 时。我通常这样做:
$spark-submit --deploy-mode client spark-job.py
但是有什么区别
$spark-submit --deploy-mode client spark-job.py
和
$spark-submit spark-job.py
如何通过查看 spark 日志来识别作业是在客户端模式还是集群或 yarn-client 中运行?
【问题讨论】:
【参考方案1】:默认--deploy-mode
是客户端。
所以下面的 spark-submit 都将在客户端模式下运行。
$spark-submit --deploy-mode client spark-job.py
和
$spark-submit spark-job.py
如果你指定--master yarn
,现在它将以客户端模式在yarn中运行。
注意: --master 集群的主 URL(例如,对于独立集群 spark://23.195.26.187:7077) 模式类型 *独立 *纱 *金币 *Kubernetes
--deploy-mode:是在工作节点(集群)上部署你的驱动程序还是在本地作为外部客户端(客户端)(默认:客户端) *客户 *集群
【讨论】:
以上是关于使用纱线资源管理器的困惑的主要内容,如果未能解决你的问题,请参考以下文章