spark2.10安装部署（集成hadoop2.7+）

Posted 2020-09-24 Super_Orco

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了spark2.10安装部署（集成hadoop2.7+）相关的知识，希望对你有一定的参考价值。

这里默认你的hadoop是已经安装好的，master是node1，slaver是node2-3，hdfs启动在node1，yarn启动在node2，如果没安装好hadoop可以看我前面的文章

因为这里是spark和hadoop集成，我已经预先启动好了hdfs 和 yarn；MapReduce History Server也是需要启动的，详情往下看

Spark安装包：概述

类别
　　与Hadoop打包在一起的安装包
　　? 比如：spark-2.1.0-bin-hadoop2.7.tgz，spark版本为2.1.0，与hadoop 2.7.0集成
　　独立安装包
　　　　? spark-2.1.0-bin-without-hadoop.tgz
下载地址
　　http://spark.apache.org/downloads.html

Spark安装包：conf目录

spark-default.conf

　　可将spark-defaults.conf.template重命名后产生

　　以key/value方式设置spark应用程序的默认参数，这里写上默认的参数，就省去了在命令行里写一堆参数

spark-env.sh

　　可将spark-env.sh.template重命名后产生

　　是一个shell文件，保存了spark的运行环境，比如hadoop配置文件所在路径

Spark安装部署1：基本配置

主要任务

1、修改conf目录下的spark-defaults.conf和spark-env.sh

2、配置并启动spark history server

spark-defaults.conf配置

spark.master=local

spark-env.sh配置

export HADOOP_CONF_DIR=/home/orco/resources/hadoop-2.7.3/etc/hadoop

Spark安装部署2：spark historyserver配置与启动

找一台节点部署spark history server，比如我用的是node2

在Hadoop配置文件yarn-site.xml增加以下配置

<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
</property>
<property>
        <name>yarn.log.server.url</name>
        <value>http://node2:19888/jobhistory/logs</value>
</property>
<property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
</property>
<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

在Hadoop配置文件mapred-site.xml增加以下配置

<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/user/history/done</value>
</property>
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/user/history/done_intermediate</value>
</property>

在所有节点上应用同样的修改，启动Yarn

/home/orco/resources/hadoop-2.7.3/sbin/start-yarn.sh

在node2节点上启动mapreduce history server

sbin/mr-jobhistory-daemon.sh start historyserver

在浏览器中打开

http://node2:19888

配置完了必要的hadoop，接下来配置spark

修改conf/spark-defaults.conf ，增加以下配置

spark.yarn.historyServer.address=node2:18080
spark.history.ui.port=18080
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs:///tmp/spark/events
spark.history.fs.logDirectory=hdfs:///tmp/spark/events

在HDFS上创建以上目录

hdfs dfs -mkdir -p /tmp/spark/events

启动Spark history server

sbin/start-history-server.sh

Spark History server地址

http://node2:18080/

下篇文字会介绍配置文件为什么那样配，即日志那块的东西

以上是关于spark2.10安装部署（集成hadoop2.7+）的主要内容，如果未能解决你的问题，请参考以下文章