Google Dataproc 上的 Spark 用户界面在哪里?

Posted

技术标签:

【中文标题】Google Dataproc 上的 Spark 用户界面在哪里?【英文标题】:Where is the Spark UI on Google Dataproc? 【发布时间】:2016-01-16 13:02:10 【问题描述】:

我应该使用什么端口来访问 Google Dataproc 上的 Spark UI?

我尝试了端口 4040 和 7077 以及我使用 netstat -pln 找到的许多其他端口

防火墙配置正确。

【问题讨论】:

【参考方案1】:

Dataproc 在 YARN 之上运行 Spark,因此您不会找到典型的“Spark 独立”端口;相反,在运行 Spark 作业时,您可以访问端口 8088,它将显示 YARN ResourceManager 的主页。任何正在运行的 Spark 作业都可以通过该页面上的 Application Master 链接访问。 Spark Application Master 的页面看起来与熟悉的 Spark 独立登录页面相同,您通常会在端口 8080 上找到默认 Spark 设置。

由于工作人员通过内部网络签入,YARN 的链接将使用集群内部主机名(主机名应包含您的 Dataproc 集群名称作为前缀),但这意味着如果您从外部网络访问,则链接一开始可能不起作用;如果您使用基于防火墙的方法,则必须将主机名替换为外部 IP 地址。

更简单的体验是使用 SOCKS 代理方法,如下所述:https://cloud.google.com/dataproc/cluster-web-interfaces

在这种情况下,只需使用gcloud compute ssh 运行轻量级本地 socks 代理,然后打开指向该代理的浏览器,您就可以正常单击所有 YARN 链接。

【讨论】:

已完成作业的 Spark UI 也将在作业条目的“历史”链接下提供。 另外,hortonworks和cloudera都提供了UI界面,dataproc有吗? 用私有IP替换主机名由于某种原因不起作用......【参考方案2】:

following the instructions in Dennis's answer 时,我发现我无法连接到 dataproc image v1.0 的端口 8080 或 8088。

主节点上的开放端口建议使用 18080,我按照the documentation 为端口 18080 做了这个,瞧:访问 webui。

【讨论】:

【参考方案3】:

由于我的 DataProc 集群中有公共地址,我在 Cloud Console 中创建了一条防火墙规则,从我的公司子网到 DataProc 实例端口 8088 (YARN RM) 和 8042 ( NM Webapp 地址)。

【讨论】:

以上是关于Google Dataproc 上的 Spark 用户界面在哪里?的主要内容,如果未能解决你的问题,请参考以下文章

为啥 Spark(在 Google Dataproc 上)不使用所有 vcore?

暂停 Dataproc 集群 - Google 计算引擎

如何将 Spark-BigQuery_connector 用于现有的 spark 环境(不使用 google dataproc)

如何通过 JMX 远程连接到 Dataproc 上的 Spark 工作器

Google Cloud Dataproc 删除 BigQuery 表不起作用

Dataproc 上的 PySpark 因 SocketTimeoutException 而停止