Spark机器学习速成宝典基础篇01Windows下spark开发环境搭建+sbt+idea(Scala版)
Posted 黎明程序员
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark机器学习速成宝典基础篇01Windows下spark开发环境搭建+sbt+idea(Scala版)相关的知识,希望对你有一定的参考价值。
注意:
spark用2.1.1
scala用2.11.11
材料准备
- spark安装包
- JDK 8
- IDEA开发工具
- scala 2.11.8
(注:spark2.1.0环境于scala2.11环境开发,所以必须版本对应
scala不是必须安装的,如果你是打算使用scala进行spark开发,则需要安装
环境搭建步骤
将spark-2.1.1-bin-hadoop2.x版本至c盘下即可
将spark中的jar包全部提取出来另外放到一地方用于进行开发
新建IDEA项目,将所有jar包导入到IDEA工程当中
书写相应代码运行即可成功
以Scala书写的WordCount为例
import org.apache.spark._ /** * Created by Joe on 2017/1/16. */ object WordCount { def main(args : Array[String]): Unit = { val inputPath = "wc.txt" val conf = new SparkConf().setMaster("local").setAppName("WordCount") val sc = new SparkContext(conf) val rowRdd = sc.textFile(inputPath) println(rowRdd.take(1).toString) val resultRdd = rowRdd.flatMap(line => line.split("\\\\s+")) .map(word => (word, 1)).reduceByKey(_ + _) println(resultRdd.take(2).toString) for (data <- resultRdd) { println(data) } sc.stop() } }
以上是关于Spark机器学习速成宝典基础篇01Windows下spark开发环境搭建+sbt+idea(Scala版)的主要内容,如果未能解决你的问题,请参考以下文章
机器学习速成宝典模型篇08支持向量机SVM(附python代码)
Spark MLlib速成宝典模型篇06随机森林Random Forests(Python版)
Spark MLlib速成宝典模型篇05决策树Decision Tree(Python版)