Spark On Zeppelin

Posted 2021-04-27 大数据杂烩

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark On Zeppelin相关的知识，希望对你有一定的参考价值。

一、背景介绍

为了提高数据处理能力，突破单机在计算与资源上的瓶颈，如Hadoop、Spark、Flink 等分布式计算框架和基于HDFS的分布式存储系统成为大多数选择。实际工作中，大部分时间我们都在研发、部署和维护批处理、流处理程序，完成相应的业务需求，但是需要对一批数据做探索性分析，所谓探索性即尚且没有明确的思路，需要不断的尝试，这时你无法形成完整方案写到代码文件、打包、正式部署，临时有个任务需要验证一下，特别针对研发人员，你为这个任务写个正式代码文件、打包、部署显然过于繁琐，并且很多线上环境是不允许随便传代码的。这里的问题就是，如何在分布式计算框架之上实现交互式运行代码？ Notebook 显然成为首选。Notebook 是一类基于 Web 的交互式数据分析工具，比较流行的有 Jupyter、Zeppelin 等。Jupyter 是基于 Python 的，前身是 IPython，在单机数据分析上表现非常优异，特别是结合 pandas 库。而 Zeppelin 则以插件的形式对大多数分布式计算引擎提供了友好的支持，尤其是 Spark。

二、组件版本

zeppelin-0.9.0-preview2-bin-all.tgz

CDH 5.16.2

Spark 2.4.0 (自行编译放入CDH，原本版本是1.6.0)

三、搭建

1.解压zeppelin-0.9.0-preview2-bin-all.tgz

2.进入conf下配置zeppelin-env.sh

3.进入conf下配置shiro.ini

Spark On Zeppelin

左边是用户名右边是密码admin是权限

4.进入conf写配置zeppelin-site.xml

<property>
<name>zeppelin.notebook.storage</name>
</property>


<property>
<name>zeppelin.notebook.dir</name>
<value>/zeppelin/notebook</value>
</property>


<property>
<name>zeppelin.recovery.storage.class</name>
<value>org.apache.zeppelin.interpreter.recovery.FileSystemRecoveryStorage</value>
</property>


<property>
<name>zeppelin.recovery.dir</name>
<value>/zeppelin/recovery</value>
</property>


<property>
<name>zeppelin.anonymous.allowed</name>
<value>false</value>
</property>