系统学习spark计划_spark老汤

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了系统学习spark计划_spark老汤相关的知识,希望对你有一定的参考价值。

老汤spark由浅入深深到底系列课程计划简介如下:

 

spark 2.x 由浅入深深到底一_正确理解spark(课程已经发布)

本课程不会有太多的技术细节,主要是一些分布式存储和计算的基本理念和思想

目标:

1: 彻底弄懂什么是RDD及其特点

2: 彻底弄懂什么是spark的分布式内存计算,进而理解spark真正解决的问题

3: 彻底弄懂spark是怎样解决各个领域问题,以及在解决各个领域问题的时候的特点

见:http://edu.51cto.com/course/10932.html 

 

spark 2.x 浅入深深到底二_RDD API(课程已经发布)

本课程主要是由浅入深深到底的讲述RDD的每一个API,以及会讲到SparkContext的部分Api

课程已经发布,见: http://edu.51cto.com/course/11058.html 


spark 2.x 浅入深深到底三_Spark core必备基础知识(会以免费的博客的形式给出)

本课程主要会深入理解spark core的三个基础组件以及我们深入理解spark需要的部分的基础java知识

目标:

1: spark的安全管理

2: spark的序列化机制

3: sparkRPC机制,包括部分的nio的知识点

4: Jvm启动机制以及类加载机制

 

spark 2.x 浅入深深到底四_Spark core应用程序的提交流程

本课程主要包含了两个部分,一个是spark的集群的初始化原理,一个是spark-submit提交应用的原理流程

目标:

1: 彻底理解spark的脚本系统,我们可以借此机会看看世界上最优秀的项目的脚本是怎么设计和管理的

2: spark standalone 集群的初始化,包括MasterWorker的初始化,在这章节会搞清楚:

    spark Master的高可用是怎么保证的

    Worker节点是怎么注册到Master上的

    了解Worker节点上的ExternalShuffleService

3: spark提交应用的几种方式,其中会重点讲解spark-submit这个脚本提交应用的原理、流程以及每一个提交参数的含义用法

 

spark 2.x 浅入深深到底五_Spark core集群资源管理机制(会以免费的博客的形式给出)

本课程会详细的理解spark的三种资源管理机制:

1: spark自带的standalone模式

2: hadoopyarn模式,这节课使的我们彻底弄明白spark是怎么基于yarn来跑任务的,以及我们怎么样去自己实现一个往yarn上提交应用的客户端

3: mesos模式,这节课使的我们彻底弄明白spark是怎么基于mesos来跑任务的,以及我们怎么样去自己实现一个往mesos上提交应用的客户端

4: sparkdriver端是怎么进行executor资源的管理的

 

spark 2.x 浅入深深到底六_Spark corescheduler on driver

本课程会深入理解spark driver上的两个scheduler

1: DAGScheduler,理解stage是什么、stage是怎么划分的以及stage是怎么调度的等

2: TaskScheduler,理解task是什么,task是怎么调度的,task的本地性是怎么计算的,task的推测机制是什么样的等

3: spark的累加器Accumulator的实现原理

 

 

spark 2.x 浅入深深到底七_Spark corecomponents in SparkEnv(会以免费的博客的形式给出)

本课程主要是对spark driver端和executor端的执行环境的组件的深入理解:

1: Broadcast的实现原理

2: 内存管理实现原理

3: 存储管理实现原理

4: MapOutputTracker实现原理

5: shuffle管理原理实现

 

spark 2.x 浅入深深到底八_Spark sqlcatalyst

主要从如下几个方面来深入了解catalyst:

1: 基础数据结构tree and rule

2: 分析模块-analysis

3: 优化器 - optimizer

4: 物理执行计划的生成 - Physical Planning

5: code Generation

 

spark 2.x 浅入深深到底九_Spark sqlsql core

主要是对Datasetapi进行讲解,以及从不同的数据源中读写数据

1: Datasetapi及其原理

2: 物理执行相应的RDD的详细讲解

3: 统一数据源,比如从parquet, json等读写数据

 

spark 2.x 浅入深深到底十_Spark sqlsql with hive

1: 理解spark sql是怎么和hive结合的

2: 理解spark sql是怎么实现hive thriftServer

 

spark 2.x 浅入深深到底十一_Spark streaming

1: DStream api的使用和原理理解

2: 实时接收数据的原理,以及基于kafkaflume是怎么接收数据的

3: 实时的批处理job是怎么调度的 - JobGenerator

4: 实时接收到的数据是怎么跟踪的 - ReceiverTracker

 

 

spark 2.x 浅入深深到底十二_Spark Graphx

1: EdgeRDD的构建

2: VertexRDD的构建

3: Graph的构建

4: Graph Api的使用及其原理


以上是关于系统学习spark计划_spark老汤的主要内容,如果未能解决你的问题,请参考以下文章

Spark 系统性学习笔记系列

Spark 系统性学习笔记系列

spark学习之资源调度

Spark 系统性学习笔记系列

Spark 系统性学习笔记系列

spark机器学习系列:用Spark Python构建推荐系统