Spark源码学习和总结1

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark源码学习和总结1相关的知识,希望对你有一定的参考价值。

一. Spark源码编译

解析:

wget http://archive.apache.org/dist/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz
gtar -zxvf spark-1.6.0-bin-hadoop2.6.tgz
cd spark-1.6.0-bin-hadoop2.6
./sbt/sbt gen-idea

说明:漫长的等待后,上述命令生成SBT工程,我们就可以使用IDEA以SBT Project的方式打开。

 

二. RDD实现详解

通过persist()或cache()方法可以持久化RDD,cache()是使用persist()的快捷方式。为了避免缓存丢失重新计算带来的开销,我们可以使用Spark的checkpoint机制,这样当下游的RDD出错时,便可以从checkpoint过的RDD那里继续开始计算即可。

 

三. Scheduler模块详解

 

四. Deploy模块详解

 

五. Executor模块详解

 

六. Shuffle模块详解

 

七. Storage模块详解

 

参考文献:

[1] Scala教程:简单构建工具SBT:http://www.importnew.com/4311.html

[2] Spark的Cache和Checkpoint:http://www.fuqingchuan.com/2015/06/949.html?utm_source=tuicool&utm_medium=referral

[3] Spark技术内幕:深入理解Spark内核架构设计与实现原理

以上是关于Spark源码学习和总结1的主要内容,如果未能解决你的问题,请参考以下文章

Spark Core 1.3.1源码解析及个人总结

Spark Streaming源代码学习总结

spark源码解析总结

spark源码解析总结

在这个 spark 代码片段中 ordering.by 是啥意思?

Spark学习总结-Spark-Core