深入探究Spark -- 基本组成

Posted KINGHEY

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深入探究Spark -- 基本组成相关的知识,希望对你有一定的参考价值。

DAG:Directed Acyclic Graph,有向无环图
RDD:Resilient Distributed Dataset 弹性分布式数据集,一种分布式的内存抽象,将工作集缓存到内存中,实现了复用。
 
用户使用交互接口(Driver)与Spark集群的Cluster Manager进行交互,CM进行调度和资源管理。管理的是Worker Node(包括Executor、Task、Cache)
技术分享图片
 
 
Spark Streaming将流式计算分解成短小的批处理作业。
技术分享图片
 
 
MLlib实现了许多算法,包括分类、回归、聚类、协同过滤、降维等
 
Spark SQL 提供与外部数据源便捷的访问,交互式的查询
 
GraphX ETL、试探性分析、迭代式的图计算

以上是关于深入探究Spark -- 基本组成的主要内容,如果未能解决你的问题,请参考以下文章

从基本理解到深入探究 Linux动态频率调节系统cpufreq

深入探究Java中equals()和==的区别是什么

Spark设计理念与基本架构

《深入理解Spark-核心思想与源码分析》第二章Spark设计理念和基本架构

java深入探究13-js,ajax

详细探究Spark的shuffle实现