Spark 体验 - 使用Ide开发基于Scala语言的spark demo
Posted 极客萌芽
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark 体验 - 使用Ide开发基于Scala语言的spark demo相关的知识,希望对你有一定的参考价值。
离上一篇文章已经有快一个月了,不是作者有多忙,而是忙里偷闲的学习中遇到了不少问题,期间学习了scala语言的语法,hadoop DFS的相关命令,本编文章先介绍如何使用Intellij Ide开发spark应用,写完这个作者又要去学习spark的具体内容了。
废话不多说,下面介绍从IDE开发环境,到发布spark应用到spark服务器上执行的过程。
一、SBT安装
直接下载 : http://www.scala-sbt.org/download.html,直接安装就行
二、Intellij Ide scala插件安装
FIle-》settings-》plugins 输入scala搜索插件,直接安装就好
三、创建一个scala工程
File->new project
选择 Scala -> SBT ,Next完成创建
在工程中引入需要的jar包,sbt的包管理和maven相似,如下图所示
比maven pom文件更加简洁一些
需要的jar去http://mvnrepository.com/下载
选中SBT ,下面会有引用方式
四、编写代码
准备hello.txt,放到spark 服务器 /usr/software下
内容如下
hello world,yes you are right,666
11,222,33
1
2 345 1 5
1234353
haha!
编写测试代码,如上图所示,目的是统计单词使用次数。
五、编译打包
先设置打包路径,方法:File->Project structure->Artifacts
点+号添加,如上图所示
六、发布到spark服务器执行
1 启动hadoop dfs: 进入hadoop home 执行 /sbin/start-dfs.sh
2 启动spark master: 进入spark home 执行 /sbin/start-master.sh
3 启动spark worker:进入spark home 执行 /bin/spark-class org.apache.spark.deploy.worker.Worker spark://192.168.213.131:7077
4 copy 刚才的jar包到spark服务器/usr/software路径下
5 提交spark任务: 进入spark home 执行 /bin/spark-submit --master spark://192.168.213.131:7077 --class Demo /usr/software/scala_sample.jar
执行结果
结果输出了单词的统计数量。
完结,下篇内容预告:Spark 体验(三) - Spark Sql
以上是关于Spark 体验 - 使用Ide开发基于Scala语言的spark demo的主要内容,如果未能解决你的问题,请参考以下文章
Scala IDE for Eclipse的下载安装和WordCount的初步使用
Spark MLlib速成宝典基础篇01Windows下spark开发环境搭建(Scala版)