spark2.10安装部署(集成hadoop2.7+)
Posted Super_Orco
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark2.10安装部署(集成hadoop2.7+)相关的知识,希望对你有一定的参考价值。
这里默认你的hadoop是已经安装好的,master是node1,slaver是node2-3,hdfs启动在node1,yarn启动在node2,如果没安装好hadoop可以看我前面的文章
因为这里是spark和hadoop集成,我已经预先启动好了hdfs 和 yarn;MapReduce History Server也是需要启动的,详情往下看
Spark安装包:概述
类别
与Hadoop打包在一起的安装包
? 比如:spark-2.1.0-bin-hadoop2.7.tgz,spark版本为2.1.0,与hadoop 2.7.0集成
独立安装包
? spark-2.1.0-bin-without-hadoop.tgz
下载地址
http://spark.apache.org/downloads.html
Spark安装包:conf目录
spark-default.conf
可将spark-defaults.conf.template重命名后产生
以key/value方式设置spark应用程序的默认参数,这里写上默认的参数,就省去了在命令行里写一堆参数
spark-env.sh
可将spark-env.sh.template重命名后产生
是一个shell文件,保存了spark的运行环境,比如hadoop配置文件所在路径
Spark安装部署1:基本配置
主要任务
1、修改conf目录下的spark-defaults.conf和spark-env.sh
2、配置并启动spark history server
spark-defaults.conf配置
spark.master=local
spark-env.sh配置
export HADOOP_CONF_DIR=/home/orco/resources/hadoop-2.7.3/etc/hadoop
Spark安装部署2:spark historyserver配置与启动
找一台节点部署spark history server,比如我用的是node2
在Hadoop配置文件yarn-site.xml增加以下配置
<property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.log.server.url</name> <value>http://node2:19888/jobhistory/logs</value> </property> <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property>
在Hadoop配置文件mapred-site.xml增加以下配置
<property> <name>mapreduce.jobhistory.done-dir</name> <value>/user/history/done</value> </property> <property> <name>mapreduce.jobhistory.intermediate-done-dir</name> <value>/user/history/done_intermediate</value> </property>
在所有节点上应用同样的修改,启动Yarn
/home/orco/resources/hadoop-2.7.3/sbin/start-yarn.sh
在node2节点上启动mapreduce history server
sbin/mr-jobhistory-daemon.sh start historyserver
在浏览器中打开
http://node2:19888
配置完了必要的hadoop,接下来配置spark
修改conf/spark-defaults.conf ,增加以下配置
spark.yarn.historyServer.address=node2:18080 spark.history.ui.port=18080 spark.eventLog.enabled=true spark.eventLog.dir=hdfs:///tmp/spark/events spark.history.fs.logDirectory=hdfs:///tmp/spark/events
在HDFS上创建以上目录
hdfs dfs -mkdir -p /tmp/spark/events
启动Spark history server
sbin/start-history-server.sh
Spark History server地址
http://node2:18080/
下篇文字会介绍配置文件为什么那样配,即日志那块的东西
以上是关于spark2.10安装部署(集成hadoop2.7+)的主要内容,如果未能解决你的问题,请参考以下文章
Hadoop2.7.3+Hbase-1.2.6完全分布式安装部署