DAG:Directed Acyclic Graph,有向无环图
RDD:Resilient Distributed Dataset 弹性分布式数据集,一种分布式的内存抽象,将工作集缓存到内存中,实现了复用。
用户使用交互接口(Driver)与Spark集群的Cluster Manager进行交互,CM进行调度和资源管理。管理的是Worker Node(包括Executor、Task、Cache)
Spark Streaming将流式计算分解成短小的批处理作业。
MLlib实现了许多算法,包括分类、回归、聚类、协同过滤、降维等
Spark SQL 提供与外部数据源便捷的访问,交互式的查询
GraphX ETL、试探性分析、迭代式的图计算