Spark从入门到精通7:Spark客户端之Spark Submit的使用
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark从入门到精通7:Spark客户端之Spark Submit的使用相关的知识,希望对你有一定的参考价值。
参考技术A 通过前面的介绍我们知道,Spark的客户端(Driver)有两种:Spark Submit和Spark Shell。这两种客户端相同点都是维护一个Spark Context对象,来向Spark集群提交任务;不同点是Spark Submit只能提交任务,不能交互,而Spark Shell是一个命令行工具,即可以提交任务,还可以人机交互。本节先来介绍Spark Submit客户端的使用。例子:使用蒙特卡罗方法计算圆周率。
如图所示,蒙特卡罗方法求圆周率,使用的是概率的思想:往正方形区域随机撒点,总点数记为P2,落在单位圆区域内的点数记为P1,单位圆的面积为π,正方形的面子为4,π = P1 / P2 * 4。这里的P1和P2均由随机实验中得到,实验的次数(P2)越多,得到的结果就越精确。
Spark提供的测试用例$SPARK_HOME/examples/jars/spark-examples_2.11-2.1.0.jar中就有蒙特卡罗求圆周率的例子SparkPI,我们就使用它来介绍Spark Submit的使用。
(1)如果配置了基于Zookeeper的Spark HA,需要先启动Zookeeper服务器
(2)启动Spark集群
使用Spark Submit的命令格式如下:
(1)提交SparkPI任务,随机实验次数为100:
(2)提交SparkPI任务,随机实验次数为1000:
(3)提交SparkPI任务,随机实验次数为10000:
可以看到上面三次实验的结果分别是:
一般对于随机实验来说,试验次数越多结果越精确。但是不免存在误差。如果想要获取更精确的圆周率,你可以输入更多的次数进行测试。但这不是本文介绍的重点。
至此,使用Spark Submit客户端提交Spark任务的方法已经介绍完毕,祝你玩的愉快!
以上是关于Spark从入门到精通7:Spark客户端之Spark Submit的使用的主要内容,如果未能解决你的问题,请参考以下文章