使用 Spark 配置 Apache Zeppelin

Posted

技术标签:

【中文标题】使用 Spark 配置 Apache Zeppelin【英文标题】:Apache Zeppelin configuration with Spark 【发布时间】:2016-12-16 16:14:41 【问题描述】:

我一直在尝试使用 Spark 2.0 配置 Apache Zeppeling。我设法将它们都安装在 linux 操作系统上,并将 spark 设置在 8080 端口上,而 zeppelin 服务器设置在 8082 端口号上。

在 zeppelin 的 zeppelin-env.sh 文件中,我将 SPARK_HOME 变量设置为 Spark 文件夹的位置。

但是,当我尝试创建一个新节点时,没有任何东西可以正确编译。看起来我没有配置解释器,因为主页选项卡中缺少解释器选项卡。

任何帮助将不胜感激。

编辑:E.I.当我尝试运行 zeppelin 教程时,“将数据加载到表中”过程我收到以下错误:

java.lang.ClassNotFoundException: org.apache.spark.repl.SparkCommandLine 在 java.net.URLClassLoader.findClass(URLClassLoader.java:381) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:424) 在 sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331) 在 java.lang.ClassLoader.loadClass(ClassLoader.java:357) 在 org.apache.zeppelin.spark.SparkInterpreter.open(SparkInterpreter.java:400) 在 org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:69) 在 org.apache.zeppelin.interpreter.LazyOpenInterpreter.interpret(LazyOpenInterpreter.java:93) 在 org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer$InterpretJob.jobRun(RemoteInterpreterServer.java:341) 在 org.apache.zeppelin.scheduler.Job.run(Job.java:176) 在 org.apache.zeppelin.scheduler.FIFOScheduler$1.run(FIFOScheduler.java:139) 在 java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 在 java.util.concurrent.FutureTask.run(FutureTask.java:266) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) 在 java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 在 java.lang.Thread.run(Thread.java:745)

【问题讨论】:

它没有丢失。它在匿名下方的右上角。加上 spark 2.7 不存在 是的,抱歉,它是 spark 2.0 和 hadoop 2.7。我知道您可以从匿名下访问解释器选项卡,但我担心的是,如果它没有出现在主主页中,这意味着在配置过程中出现问题,例如尝试在 scala 中编译任何代码时,火花,java等它给出了一个错误。 【参考方案1】:

我认为不使用 spark 2.0 构建是不可能的 来源,因为此版本发生了一些相对较大的变化。

您可以克隆 zeppelin git repo 并使用 github https://github.com/apache/zeppelin 上的自述文件中提到的 spark 2.0 配置文件进行构建。

我试过了,效果很好。

【讨论】:

我尝试了你的方法,但目前我收到以下错误,同时从源 npm WARN 未满足的依赖项构建它,它是 2.2.1 版本,而我当前的工作是 3.5.1 rm -rf node_modules inside zeppelin-web 应该可以解决 npm 问题

以上是关于使用 Spark 配置 Apache Zeppelin的主要内容,如果未能解决你的问题,请参考以下文章

Apache Spark 配置

如何为严密的防火墙配置 Apache Spark 随机工作端口?

使用 Java 将数据存储为 Apache Spark 中的配置单元表

来自 Apache Spark 的外部配置单元中存在的查询表 [重复]

在Apache Spark中使用Bigquery Connector时如何设置分区数?

如何配置 Apache Spark 2.4.5 以连接到 HIVE 的 MySQL Metastore?