什么是spark？通俗易懂，一文读懂

Posted 2022-10-03 淼淼_喵

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了什么是spark？通俗易懂，一文读懂相关的知识，希望对你有一定的参考价值。

Spark是什么

官方定义: 定义：*Apache Spark是用于**大规模数据（large-scala data）**处理的**统一（unified）**分析引擎。*

分析引擎(计算引擎): 我们目前接触的引擎有:

计算引擎: 通用的可以执行开发人员提供的业务代码的一种框架.

Spark框架中有一个核心的数据结构: RDD

Pandas中的数据结构是DataFrame, 多数API都是针对DF对象来进行的.

同样, Spark的数据结构是RDD对象, 多数API都是针对RDD对象来进行的

RDD对象是一个真正的分布式对象, Pandas的DataFrame则是一个单机的对象.

	Hadoop	Spark
类型	基础平台, 包含计算, 存储, 调度	分布式计算工具
场景	大规模数据集上的批处理	迭代计算, 交互式计算, 流计算
价格	对机器要求低, 便宜	对内存有要求, 相对较贵
编程范式	Map+Reduce, API 较为底层, 算法适应性差	RDD组成DAG有向无环图, API 较为顶层, 方便使用
数据存储结构	MapReduce中间计算结果在HDFS磁盘上, 延迟大	RDD中间运算结果在内存中 , 延迟小
运行方式	Task以进程方式维护, 任务启动慢	Task以线程方式维护, 任务启动快

以上是关于什么是spark？通俗易懂，一文读懂的主要内容，如果未能解决你的问题，请参考以下文章