Python开发Spark步骤以及如何提交Spark应用,PythonOnSpark原理

Posted 半觞盛夏半觞秋

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python开发Spark步骤以及如何提交Spark应用,PythonOnSpark原理相关的知识,希望对你有一定的参考价值。

1.Python开发Spark程序步骤

主要是获取SparkContext对象,基于SparkContext对象作为执行环境入口

2.如何提交Spark应用

将程序代码上传到服务器上,通过spark-submit客户端工具进行提交

  • 在代码中不要设置master,如果设置的话会以代码为准,spark-submit工具的设置就无效了
  • 提交程序到集群中的时候,读取的文件一定是各个机器都能访问到的地址
3.Python On Spark执行原理
  • 在Driver端,Python的Driver代码翻译成JVM代码(Py4j模块)变成JVM Driver运行;在Executor端,通过pyspark模块进行中转调度
  • Driver端是JVM在运行,Executor端是Python在运行


Python On Spark Driver端由JVM执行,Executor端由JVM做命令转发,底层由Python解释器进行工作

Spark- Spar架构原理

Spark架构原理

1.Driver

选spark节点之一,提交我们编写的spark程序,开启一个Driver进程,由Driver进程执行

2.Master

是一个进程,主要负责资源的调度和分配,还有集群的监控等职责。

3.Worker

由我们spark配置文件slave决定,它是一个进程。主要负责两个,一个是自己内存存储的RDD的某个partition ;另一个是启动其他进程和线程,对RDD上的partition 进行并行的处理和计算。

4.Executor

Worker会为应用程序启动Executor,Executor是一个进程

5.Task

Executor会为应用程序启动Task线程,Executor和Task其实就是执行负责执行,对RDD的partition 进行并行的计算了,也就是执行我们对RDD定义的,比如map,flatMap,reduce等算子操作。

 

我们由一个Spark应用程序,当我们一提交就会在spark中启动一个Driver进程。

Driver进程启动之后,会做一些初始化的操作,在这个过程中,就会发送请求到Master上,进行Spark应用程序的注册,说白了就是让Master 知道,有一个新的Spark应用程序要运行。

Master在接受到Spark应用程序的注册申请之后,会发送请求给Worker,为该应用程序进行资源的调度和分配,资源分配就是Executor的分配。

Worker接收到Master的请求之后,会为Spark应用启动Executor。

Executor启动之后,会向Driver进行反注册,这样,Driver就知道,哪些Executor是为它服务的了。

Driver注册了一些Executor之后,就可以开始正式执行我们的Spark应用程序了,首先第一步,创建初始RDD,读取数据。HDFS文件内容被读取到多个Worker节点上,形成内存中的分布式数据集,也就是初始RDD。

Driver会根据我们对RDD定义的操作,提交一大堆的task去Executor上

Executor接收到task之后,会启动多个线程来执行task。

task会对RDD的partition数据执行指定的算子操作,形成新的RDD的partition。

 

以上是关于Python开发Spark步骤以及如何提交Spark应用,PythonOnSpark原理的主要内容,如果未能解决你的问题,请参考以下文章

java 怎么提交应用程序到spark standalone集群中去运行

spark-submit提交任务到集群,分发虚拟环境和第三方包

Spark ML Pipeline简介

在非 Spark 环境中加载 pyspark ML 模型

basic spark or spark essentials(notes)

在执行spar-sql程序中报错:java.lang.NoSuchMethodError: org.apache.spark.internal.Logging.$init$(Lorg/apache/s