Google Dataproc 上的 Spark 用户界面在哪里?
Posted
技术标签:
【中文标题】Google Dataproc 上的 Spark 用户界面在哪里?【英文标题】:Where is the Spark UI on Google Dataproc? 【发布时间】:2016-01-16 13:02:10 【问题描述】:我应该使用什么端口来访问 Google Dataproc 上的 Spark UI?
我尝试了端口 4040 和 7077 以及我使用 netstat -pln
找到的许多其他端口
防火墙配置正确。
【问题讨论】:
【参考方案1】:Dataproc 在 YARN 之上运行 Spark,因此您不会找到典型的“Spark 独立”端口;相反,在运行 Spark 作业时,您可以访问端口 8088
,它将显示 YARN ResourceManager 的主页。任何正在运行的 Spark 作业都可以通过该页面上的 Application Master
链接访问。 Spark Application Master 的页面看起来与熟悉的 Spark 独立登录页面相同,您通常会在端口 8080 上找到默认 Spark 设置。
由于工作人员通过内部网络签入,YARN 的链接将使用集群内部主机名(主机名应包含您的 Dataproc 集群名称作为前缀),但这意味着如果您从外部网络访问,则链接一开始可能不起作用;如果您使用基于防火墙的方法,则必须将主机名替换为外部 IP 地址。
更简单的体验是使用 SOCKS 代理方法,如下所述:https://cloud.google.com/dataproc/cluster-web-interfaces
在这种情况下,只需使用gcloud compute ssh
运行轻量级本地 socks 代理,然后打开指向该代理的浏览器,您就可以正常单击所有 YARN 链接。
【讨论】:
已完成作业的 Spark UI 也将在作业条目的“历史”链接下提供。 另外,hortonworks和cloudera都提供了UI界面,dataproc有吗? 用私有IP替换主机名由于某种原因不起作用......【参考方案2】:following the instructions in Dennis's answer 时,我发现我无法连接到 dataproc image v1.0 的端口 8080 或 8088。
主节点上的开放端口建议使用 18080,我按照the documentation 为端口 18080 做了这个,瞧:访问 webui。
【讨论】:
【参考方案3】:由于我的 DataProc 集群中有公共地址,我在 Cloud Console 中创建了一条防火墙规则,从我的公司子网到 DataProc 实例端口 8088 (YARN RM) 和 8042 ( NM Webapp 地址)。
【讨论】:
以上是关于Google Dataproc 上的 Spark 用户界面在哪里?的主要内容,如果未能解决你的问题,请参考以下文章
为啥 Spark(在 Google Dataproc 上)不使用所有 vcore?
如何将 Spark-BigQuery_connector 用于现有的 spark 环境(不使用 google dataproc)
如何通过 JMX 远程连接到 Dataproc 上的 Spark 工作器