spark安装小白教程
Posted ivyharding
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark安装小白教程相关的知识,希望对你有一定的参考价值。
本人情况:
首次接触大数据工具spark,只会python,sql; 不会java。
本机情况:
win10新电脑,里面基本啥都没有,连java都没有
需求:
尝试单机安装spark,学习这个大数据工具,特来记录安装全过程。
第一步:安装JDK
1. 下载安装JDK
JDK为java开发工具包(java SDK)
进入JDK安装官网,安装免费;进入后,看到下面的界面
点击后,进入:
先点击accept,再点击需要下载的exe文件
下载完之后,我们就可以直接安装JDK,JDK在windows下的安装非常简单,按照正常的软件安装思路去双击下载得到的exe文件,然后设定你自己的安装目录(这个安装目录在设置环境变量的时候需要用到)即可。
2. JDK环境变量设置
环境变量设置:右击【此电脑】--【属性】--【高级系统设置】--在此界面选【高级】--【环境变量】--在系统变量找”path“---选择并编辑添加安装JDK目录下的文件夹路径名称。之后一路确定。
这样设置好后,便可以在任意目录下打开的cmd命令行窗口下运行下面命令。查看是否设置成功。
java -version
观察可以输出相关java的信息,恭喜宝宝JDK安装成功!!!!撒花
第二步:安装Scala
1. 下载安装Scale
scale是spark的开发语言
进入scala官网,看到下面的界面
点击后,跳转到
下载红框中的.下载得到Scala的msi文件后,可以双击执行安装。
2. scala环境变量设置
安装成功后,默认会将Scala的bin目录添加到PATH系统变量中去(如果没有,和上面JDK安装步骤中类似,将Scala安装目录下的bin目录路径,添加到系统变量PATH中)。
为了验证是否安装成功,开启一个新的cmd窗口,输入
scala
然后回车,如果能够正常进入到Scala的交互命令环境则表明安装成功,撒花
补一个概念:如何退出scala的环境-----
终端输入
:quit
或者: ctrl+c
第三步:安装spark
1. 下载安装Spark
到Spark官网下载,【download】选择带有Hadoop版本的Spark
点击小红框之后
这里使用的是Pre-built的版本,意思就是已经编译了好了,下载来直接用就好,Spark也有源码可以下载,但是得自己去手动编译之后才能使用。下载完成后将文件进行解压(可能需要解压两次),最好解压到一个盘的根目录下,并重命名为Spark,简单不易出错。并且需要注意的是,在Spark的文件目录路径名中,不要出现空格,类似于“Program Files”这样的文件夹名是不被允许的。我们在C盘新建一个Spark文件夹存放
添加环境变量
解压后基本上就差不多可以到cmd命令行下运行了。但这个时候每次运行spark-shell(spark的命令行交互窗口)的时候,都需要先cd
到Spark的安装目录下,比较麻烦,因此可以将Spark的bin目录添加到系统变量PATH中。
运行spark-shell
系统变量设置后,就可以在任意当前目录下的cmd中运行spark-shell,但这个时候很有可能会碰到各种错误,这里主要是因为Spark是基于hadoop的,所以这里也有必要配置一个Hadoop的运行环境。错误如图所示:
但是也会带一个运行成功的标志
由于上述的error,我们需要配置hadoop环境
第四步、安装hadoop
在Hadoop Releases里可以看到Hadoop的各个历史版本,这里由于下载的Spark是基于Hadoop 2.7的(在Spark安装的第一个步骤中,我们选择的是Pre-built for Hadoop 2.7
),我这里选择2.7.7版本,选择好相应版本并点击后,进入详细的下载页面,如下图所示:
点进去得到
选择图中红色标记进行下载,这里上面的src版本就是源码,需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件,我这里下载的就是已经编译好的版本,即图中的“hadoop-2.7.7.tar.gz”文件。
设置环境变量
下载并解压到指定目录然后到环境变量部分设置,HADOOP_HOME为Hadoop的解压目录,如图所示:
再次测试:
运行spark-shell
以上是关于spark安装小白教程的主要内容,如果未能解决你的问题,请参考以下文章