Win10下搭建spark

Posted momogua

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Win10下搭建spark相关的知识,希望对你有一定的参考价值。

在win10下搭建spark,需要安装java的jdk,scala,spark,hadoop。

 

一、安装配置jdk

下载 jdk版本:jdk-8u151-windows-x64.exe

增加2个环境变量:

JAVA_HOME   E:Javajdk1.8.0_151   (注意,这里把jdk安装的目录,不是C盘的默认目录,路径中不能有空格

CLASSPATH   %JAVA_HOME%lib;%JAVA_HOME%lib ools.jar

 

在系统环境变量Path中  ,在原来基础上加:%JAVA_HOME%in

 

二、安装配置scala

 访问官方地址http://www.scala-lang.org/download/2.11.8.html

下载:scala-2.11.8.msi

在系统环境变量 Path 中,增加:C:Program Files (x86)scalain

 

三、安装配置spark

 1、下载spark

访问官方地址http://spark.apache.org/downloads.html

下载文件:spark-2.2.0-bin-hadoop2.7.tgz

 技术分享图片

2、解压tgz文件

我把文件解压到目录:D:spark-2.2.0-bin-hadoop2.7

在这个目录下,有 bin等文件夹。

3、配置

添加系统环境变量:

SPARK_HOME   D:spark-2.2.0-bin-hadoop2.7

在系统环境变量Path增加:%SPARK_HOME%in

  

四、安装配置hadoop

 1、下载hadoop

访问官方http://hadoop.apache.org/releases.html

可以下载 2.7.6版的binary文件

技术分享图片

但是,我在安装的时候,直接百度,找了 hadoop2.7.1的压缩文件。

在bin目录中,包含了:hadoop.dll  ,  winutils.exe ,这2个文件就够用了。

然后解压为:D:hadoop2.7.1

 

2、配置

增加系统环境变量:

HADOOP_HOME    D:hadoop2.7.1

在系统环境变量Path增加:%HADOOP_HOME%in

 

3、下载winutils

下载路径:https://github.com/steveloughran/winutils

 

五、配置pyspark

在搭建spark环境之前,安装了Anaconda,包含了python,为了使用pyspark:

1、把 D:spark-2.2.0-bin-hadoop2.7python 复制到 E:Anaconda3Libsite-packages 路径下。

2、通过pip install py4j 安装 py4j。

3、修改权限 winutils.exe chmod 777 D: mpHive,在运行命令前先创建目录 D: mpHive 。

4、配置

增加系统环境变量: PYTHONPATH %SPARK_HOME%pythonlibpy4j;%SPARK_HOME%pythonlibpyspark;E:Anaconda3;

在系统环境变量Path,增加:E:Anaconda3

 

六、验证

启动cmd,输入 : pyspark

技术分享图片

 

 或者输入:spark-shell

技术分享图片

 

以上是关于Win10下搭建spark的主要内容,如果未能解决你的问题,请参考以下文章

Spark框架:Win10系统下搭建Scala开发环境

Spark家族:Win10系统下搭建Scala开发环境

在win10上搭建pyspark,

动手搭建docker并在docker容器中建spark集群

Win7 Eclipse 搭建spark java1.8环境:WordCount helloworld例子

在win10下搭建gitblit