Spark开源学习模块

Posted cynchanpin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark开源学习模块相关的知识,希望对你有一定的参考价值。

Spark开源的各模块组成结构:

1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖。子RDD对父RDD中的全部data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。
 
5. Operation——作用于RDD的各种操作分为transformation和action。
 
6. Job——作业,一个JOB包括多个RDD及作用于对应RDD上的各种operation。
 
7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph,有向无环图。RDD之间的依赖关系。


 
9. Caching Managenment——缓存管理。对RDD的中间计算结果进行缓存管理以加快总体的处理速度。


參考资料(reference)
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

以上是关于Spark开源学习模块的主要内容,如果未能解决你的问题,请参考以下文章

Spark开源框架精彩学习资源分享——DT大数据梦工厂王家林

10本最佳Apache Spark书籍

10本值得你读的Apache Spark书籍

常用模块学习开源模块的安装

开源社区最火爆的Spark,是如何做到最强的?

开源的python机器学习模块