Spark的特点

Posted 2023-02-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark的特点相关的知识，希望对你有一定的参考价值。

参考技术A ·速度快：Spark基于内存进行计算（当然也有部分计算基于磁盘，比如shuffle）。

·容易上手开发：Spark的基于RDD的计算模型，比Hadoop的基于Map-Reduce的计算模型要更加易于理解，更加易于上手开发，实现各种复杂功能，比如二次排序、topn等复杂操作时，更加便捷。

·超强的通用性：Spark提供了Spark RDD、Spark SQL、Spark Streaming、Spark MLlib、Spark GraphX等技术组件，可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。

·集成Hadoop：Spark并不是要成为一个大数据领域的“独裁者”，一个人霸占大数据领域所有的“地盘”，而是与Hadoop进行了高度的集成，两者可以完美的配合使用。Hadoop的HDFS、Hive、HBase负责存储，YARN负责资源调度；Spark负责大数据计算。实际上，Hadoop+Spark的组合，是一种“double win”的组合。

·极高的活跃度：Spark目前是Apache基金会的顶级项目，全世界有大量的优秀工程师是Spark的committer。并且世界上很多顶级的IT公司都在大规模地使用Spark。

以上是关于Spark的特点的主要内容，如果未能解决你的问题，请参考以下文章

spark技术特点

spark几种部署模式，每种模式特点及搭建

spark学习笔记——sparkStreaming-概述/特点/构架/DStream入门程序wordcount

Spark面试题——说下对RDD的理解？RDD特点算子？

请简要描述一下hadoop，spark，mpi三种计算框架的特点以及分别适用于啥样的场景