如何设置 Zeppelin 以使用远程 EMR Yarn 集群

Posted

技术标签:

【中文标题】如何设置 Zeppelin 以使用远程 EMR Yarn 集群【英文标题】:How to set up Zeppelin to work with remote EMR Yarn cluster 【发布时间】:2015-12-12 03:19:30 【问题描述】:

我有带有 Spark 1.4.1 和 Yarn 资源管理器的 Amazon EMR Hadoop v2.6 集群。 我想在单独的机器上部署 Zeppelin,以便在没有作业运行时关闭 EMR 集群。

我尝试按照此处的说明进行操作 https://zeppelin.incubator.apache.org/docs/install/yarn_install.html 没有太大的成功。

有人可以揭开 Zeppelin 应该如何从不同机器连接到现有 Yarn 集群的步骤吗?

【问题讨论】:

【参考方案1】:

[1] 使用适当的参数安装 Zeppelin:

git clone https://github.com/apache/incubator-zeppelin.git ~/zeppelin;
cd ~/zeppelin;
mvn clean package -Pspark-1.4 -Dhadoop.version=2.6.0 -Phadoop-2.6 -Pyarn -DskipTests

[2] 更新 EMR_MASTER EC2 安全组以接受来自所有端口的传入请求,与 Zeppelin 通信(应该是特定端口,尚不知道是哪个端口)

[3] 将目录 EMR_MASTER:/etc/hadoop/conf 复制到 MY_STANDALONE_SERVER:/home/zeppelin/hadoop-conf。

[4] zeppelin/conf/zeppelin-env.sh 应该包含:

export MASTER=yarn-client
export HADOOP_CONF_DIR=/home/zeppelin/hadoop-conf

注意:spark.executor.instances 等 Spark 参数取自解释器设置,并在此处指定。

【讨论】:

以上是关于如何设置 Zeppelin 以使用远程 EMR Yarn 集群的主要内容,如果未能解决你的问题,请参考以下文章

如何让 Zeppelin 在 EMR 集群上干净地重新启动?

是否可以通过 IAM 角色限制从 EMR (zeppelin) 访问 S3 数据?

如何在 EMR zeppelin 上安装 boto3

如何告诉 spark 和 zeppelin 在 AWS EMR 中使用本地 maven .m2 目录?

SparkSession 应用程序源代码配置属性未覆盖 AWS EMR 默认值上的 JupyterHub 和 Zeppelin

Apache Zeppelin + EMR(Spark) Cluster 用于打开防火墙