集群模式执行Spark程序(第七弹)

Posted 敲代码的老贾

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了集群模式执行Spark程序(第七弹)相关的知识,希望对你有一定的参考价值。

#添加打包插件

在pom.xml文件中添加所需插件

插入内容如下:

<build>

<sourceDirectory>src/main/scala</sourceDirectory>

<testSourceDirectory>src/test/scala</testSourceDirectory>

<plugins>

<plugin>

<groupId>net.alchim31.maven</groupId>

<artifactId>scala-maven-plugin</artifactId>

<version>3.2.2</version>

<executions>

<execution>

<goals>

<goal>compile</goal>

<goal>testCompile</goal>

</goals>

<configuration>

<args>

<arg>-dependencyfile</arg>

<arg>$project.build.directory/.scala_dependencies</arg>

</args>

</configuration>

</execution>

</executions>

</plugin>

<plugin>

<groupId>org.apache.maven.plugins</groupId>

<artifactId>maven-shade-plugin</artifactId>

<version>2.4.3</version>

<executions>

<execution>

<phase>package</phase>

<goals>

<goal>shade</goal>

</goals>

<configuration>

<filters>

<filter>

<artifact>*:*</artifact>

<excludes>

<exclude>META-INF/*.SF</exclude>

<exclude>META-INF/*.DSA</exclude>

<exclude>META-INF/*.RSA</exclude>

</excludes>

</filter>

</filters>

<transformers>

<transformer implementation=

"org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">

<mainClass></mainClass>

</transformer>

</transformers>

</configuration>

</execution>

</executions>

</plugin>

</plugins>

</build>

等待加载

集群模式执行Spark程序(第七弹)_jar包

步骤1 将鼠标点在WordCount ,ctrl+c后ctrl+v复制,重新命名为WordCount_Online

集群模式执行Spark程序(第七弹)_java_02

步骤2 修改代码

3. 读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型

val data : RDD[String] = sparkContext.textFile(args(0))

7. 把结果数据保存到HDFS上

result.saveAsTextFile(args(1))

修改以上这2行代码

集群模式执行Spark程序(第七弹)_spark_03

步骤3 点击右边【maven projects】 —> 双击 【lifecycle】下的package,自动将项目打包成Jar包

[图片上传失败...(image-d48c38-1660375399984

集群模式执行Spark程序(第七弹)_spark_04

打包成功标志: 显示BUILD SUCCESS,可以看到target目录下的2个jar包

集群模式执行Spark程序(第七弹)_java_05

步骤4 启动Hadoop集群才能访问web页面

$ start-all.sh

集群模式执行Spark程序(第七弹)_spark_06

步骤5 访问192.168.196.101(master):50070 点击【utilities】—>【browse the file system】

集群模式执行Spark程序(第七弹)_spark_07

步骤6 点击【spark】 —>【test】,可以看到words.txt

集群模式执行Spark程序(第七弹)_maven_08

集群模式执行Spark程序(第七弹)_spark_09

集群模式执行Spark程序(第七弹)_jar包_10

步骤7 将words.txt删除

$ hadoop fs -rm /spark/test/words.txt

集群模式执行Spark程序(第七弹)_java_11

步骤8 刷新下页面。可以看到/spark/test路径下没有words.txt

集群模式执行Spark程序(第七弹)_jar包_12

步骤9 Alt+p,切到/opt/software,把含有第3方jar的spark_chapter02-1.0-SNAPSHOT.jar包拉进

先将解压的两个jar包复制出来

集群模式执行Spark程序(第七弹)_spark_13

集群模式执行Spark程序(第七弹)_java_14

集群模式执行Spark程序(第七弹)_jar包_15

步骤10 也把F盘/word/words.txt直接拉进/opt/software

集群模式执行Spark程序(第七弹)_spark_16

步骤11 查看有没有words.txt和spark_chapter02-1.0-SNAPSHOT.jar

集群模式执行Spark程序(第七弹)_spark_17

步骤12 执行提交命令

$ *bin/spark-submit *

--master spark:// master:7077 \\

--executor-memory 1g \\

--total-executor-cores 1 \\

/opt/software/spark_chapter02-1.0-SNAPSHOT.jar \\

/spark/test/words.txt \\

/spark/test/out


以上是关于集群模式执行Spark程序(第七弹)的主要内容,如果未能解决你的问题,请参考以下文章

前端学习 第七弹: Javascript实现图片的延迟加载

『MXNet』第七弹_分类器demo示意

perl 第七弹 变量 IV

创作赢红包python学习——第七弹

第七弹——概要设计与详细设计文档的修改

第七弹——概要设计与详细设计文档的修改