Win10下搭建spark
Posted momogua
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Win10下搭建spark相关的知识,希望对你有一定的参考价值。
在win10下搭建spark,需要安装java的jdk,scala,spark,hadoop。
一、安装配置jdk
下载 jdk版本:jdk-8u151-windows-x64.exe
增加2个环境变量:
JAVA_HOME E:Javajdk1.8.0_151 (注意,这里把jdk安装的目录,不是C盘的默认目录,路径中不能有空格)
CLASSPATH %JAVA_HOME%lib;%JAVA_HOME%lib ools.jar
在系统环境变量Path中 ,在原来基础上加:%JAVA_HOME%in
二、安装配置scala
访问官方地址http://www.scala-lang.org/download/2.11.8.html
下载:scala-2.11.8.msi
在系统环境变量 Path 中,增加:C:Program Files (x86)scalain
三、安装配置spark
1、下载spark
访问官方地址http://spark.apache.org/downloads.html
下载文件:spark-2.2.0-bin-hadoop2.7.tgz
2、解压tgz文件
我把文件解压到目录:D:spark-2.2.0-bin-hadoop2.7
在这个目录下,有 bin等文件夹。
3、配置
添加系统环境变量:
SPARK_HOME D:spark-2.2.0-bin-hadoop2.7
在系统环境变量Path增加:%SPARK_HOME%in
四、安装配置hadoop
1、下载hadoop
访问官方http://hadoop.apache.org/releases.html
可以下载 2.7.6版的binary文件
但是,我在安装的时候,直接百度,找了 hadoop2.7.1的压缩文件。
在bin目录中,包含了:hadoop.dll , winutils.exe ,这2个文件就够用了。
然后解压为:D:hadoop2.7.1
2、配置
增加系统环境变量:
HADOOP_HOME D:hadoop2.7.1
在系统环境变量Path增加:%HADOOP_HOME%in
3、下载winutils
下载路径:https://github.com/steveloughran/winutils
五、配置pyspark
在搭建spark环境之前,安装了Anaconda,包含了python,为了使用pyspark:
1、把 D:spark-2.2.0-bin-hadoop2.7python 复制到 E:Anaconda3Libsite-packages 路径下。
2、通过pip install py4j 安装 py4j。
3、修改权限 winutils.exe chmod 777 D: mpHive,在运行命令前先创建目录 D: mpHive 。
4、配置
增加系统环境变量: PYTHONPATH %SPARK_HOME%pythonlibpy4j;%SPARK_HOME%pythonlibpyspark;E:Anaconda3;
在系统环境变量Path,增加:E:Anaconda3
六、验证
启动cmd,输入 : pyspark
或者输入:spark-shell
以上是关于Win10下搭建spark的主要内容,如果未能解决你的问题,请参考以下文章